자연어 처리 성능 평가 지표 - Matthews Correlation Coefficient

상관계수

상관계수란 두 변수 사이의 연관성을 나타냅니다. 즉 둘 사이에 얼마나 상관 관계가 있는지 측정하는 척도입니다.

주로 두 숫자형 변수 사이의 연관성을 직선적인 경향을 나타냅니다.

좌표평면을 펼쳐놓고 x축은 변인 x를, y축은 변인 y를 나타내게 한 뒤 각각의 관찰값들을 산점도 형태로 찍어놓으면, 그 결과 두 변인이 어떤 관계가 있는지 시각적으로 나타나게 됩니다. 양의 상관이 나타날 경우 관찰값들은 우상향하는 방향으로 모이고, 음의 상관이 나타날 경우 관찰값들은 우하향하는 방향으로 모이게 됩니다. 관찰값들이 빽빽하게 밀집해서 모이는 경우와 흩어져 분포하는 경우가 있는데 밀집된 경우 상관계수가 높다고 말할 수 있고, 흩어져 있는 경우 상관계수가 낮다고 말할 수 있습니다.

피어슨 상관 계수 (Pearson Correlation Coefficient)

많은 수의 상관 계수가 있지만 가장 널리 쓰이는 것은 피어슨 상관 계수입니다.

측정하려는 두 변수의 상관관계가 서로 선형일 때, 즉 1차함수로 표현가능할 때 유용합니다. 만약 상관관계가 직선이 아닌 곡선을 그린다면 다른 상관계수를 써야 합니다.

피어슨 상관계수는 "전체 편차" 내에서 "예측지와 평균 간의 차이"가 차지하는 비율이라고 할 수 있습니다.

편차 = 평균과 예측값 간의 차이 + 예측값과 실제 값의 차이

이때 편차 안에서 예측값과 실제 값의 차이가 차지하는 비율이 작다면 그만큼 예측값이 실제 값과 가깝고, 그만큼 예측이 정확하다고 할 수 있습니다.

ex) 편차에서 예측값과 실제 값의 차이가 차지하는 비율이 10%밖에 안된다면, 그 비율이 40%일 때보다 예측이 정확하다고 할 수 있을 것입니다.

예측이 정확할수록 상관관계가 강하다고 할 수 있으므로 비율을 통해 상관 관계가 강력하지의 여부를 알 수 있습니다. 통계학자들은 예측값과 실제 값의 차이 대신 예측값과 평균 간의 차이를 구하고, 이 차이가 전체 편차에서 어느 정도의 비율을 차지하는지 계산하여 상관 관계가 얼마나 강력한지 판단합니다.

피어슨 상관계수를 구하는 식은 다음과 같습니다.

x, y = 각 변수에 속하는 변량.

n = 총 변량의 개수

z = 표준점수

x, y의 변량을 모두 z점수로 변환해야하는 과정을 거쳐야 하기 때문에 간단하게는 아래의 식을 사용할 수 있습니다.

상관계수 r은 그대로 사용되기보다는 한번 제곱한 상태로 사용되는 경우가 많습니다. 이를 결정계수(Coefficient of determination, R^2)라고 합니다. 이 R^2 값은 측정하는 상관관계가 실제로 얼마나 큰지 보여주는 역할을 합니다.

ex) 키와 유전자의 상관관계를 연구해서 결정계수 R^2가 0.6이 나온다면, 유전자의 측정된 차이가 키의 측정된 차이의 60%를 설명할 수 있다는 결론을 내릴 수 있습니다.

상관계수는 단순히 상관관계만을 나타내며 인과관계는 추리할 수 없습니다.

매튜 상관 계수 (Matthews Correlation Coefficient, MCC)

매튜 상관계수(phi coefficient)는 이다, 아니다와 같은 이진(binary) 분류에 사용되는 방법입니다.

다른 상관계수처럼 -1과 1사이의 값을 가지며, 1에 가까울수록 비슷하다고 볼 수 있습니다.

MCC는 confusion matrix에서 다음 공식을 이용하여 직접 계산할 수 있습니다.

TP : True Positive

TN : True Negative

FP : False Positive

FN : False Negative

분모의 4개 합계중 어느 하나가 0이면 분모는 임의의 1로 설정할 수 있습니다.

Confusion matrix가 아닐 때에는 다음 공식을 이용하여 계산할 수 있습니다.

PPV : Positive Predictive Value, 긍정 예측 값

TPR : True Positive Rate, 참 양성 비율

TNR : True Negative rate, 참 음성 비율

NPV : Negative Predictive Value, 음의 예측값

FDR : False Discovery Rate, 거짓 발견 비율

FNR : False Negative Rate, 거짓 음성 비율

FPR : False Positive rate, 거짓 양성 비율

FOR : False Omission Rate, 거짓 누락 비율

위의 식은 알아보기가 힘듭니다.

다음 공식은 Matthews가 제시 한 원래 공식입니다.

N = TP + TN + FP + FN (전체 개수)

S = (TP + FN) / N (전체 중 참인 것의 개수 비율)

P = (TP + FP) / N (전체 중 참이라 예측한 것의 개수 비율)

일반적인 정확도 및 F1 점수에 비해 MCC의 장점

MCC는 4개의 혼동 행렬 범주(참 양성, 참 음성, 거짓)의 균형 비율을 고려하기 때문에 이진 분류 문제를 평가할 때 F1 점수 및 정확도보다 더 많은 정보를 제공합니다.

하지만 정확도와 F1 점수가 통계에 널리 사용 되더라도 최종 점수 계산에서 혼동 행렬의 네 가지 클래스 크기를 완전히 고려하지 않기 때문에 완벽히 맞다고는 할 수 없습니다.

예제 1)

100개의 요소로 구성된 불균형한 유효성 검사 세트가 있다고 가정합니다. 이 중 95개는 양수 요소이고 5개만 음수 요소이며, 기계 학습 분류기를 설계하고 훈련하는데 몇 가지 실수를 했고, 항상 긍정을 예측하는 알고리즘이 있다고 가정해봅니다.

TP = 95, FP = 5; TN = 0, FN = 0 입니다.

따라서 정확도 = 95% 및 F1 점수 = 97.44%의 성능 점수로 이어집니다. 점수를 보면 매우 학습이 잘 되었고, 모델이 잘 작동하는 것 처럼 보일 것입니다.

이러한 경우가 있을 때 활용할 수 있는 것이 MCC 입니다.

공식에서 혼동 행렬의 각 클래스 비율을 고려하면 음수 및 양수 요소 모두에서 잘 작동하는 경우에만 점수가 높게 나오기 때문에 위의 예제를 들어 설명하면 TN 및 FN이 0이므로 위의 공식에서는 분모가 0이 됩니다. 따라서 정확도와 F1점수 대신 이 값을 확인하면서 분류기가 잘못된 방향으로 학습이 되어가고 있음을 알 수 있으며 진행하기 전에 해결해야할 사항들을 있음을 알게됩니다.

예제 2)

또 다른 유효성 검사 세트가 있다고 가정합니다.

TP = 90, FP = 4; TN = 1, FN = 5 입니다.

정확도를 계산했을 때에는 91%, F1 점수를 계산했을 때에는 95.24% 입니다. 이전 사례와 마찬가지로 MCC를 고려하지 않고 두 가지 지표 점수로만 확인했을 때에는 충분히 잘 학습되었고, 작동하고 있는 것 처럼 보입니다.

하지만 MCC의 값은 0.14이며, 이 점수는 무작위 추측과 유사하게 진행되고 있음을 나타내는 점수입니다. 따라서 모델 성능이 좋지 않음을 알 수 있습니다.

이러한 이유로 이진 분류 문제에서 정확도 및 F1 점수 대신 Matthews Correlation Coefficient를 통해 테스트 성능을 평가하는 것이 좋습니다.

choice

자연어 처리 성능 평가 지표 - Matthews Correlation Coefficient

상관계수

피어슨 상관 계수 (Pearson Correlation Coefficient)

매튜 상관 계수 (Matthews Correlation Coefficient, MCC)

일반적인 정확도 및 F1 점수에 비해 MCC의 장점

티스토리툴바