- 상관계수 계산


위의 그림을 보면 어느 특정한 데이터와 기준이 되는 값에는 치우침, 오차가 존재한다는 것을 알 수 있다.


치우침을 활용하면 상관계수를 구할 수 있는데 통계에서는 치우침을 표현하는 대표적인 기호가 분산이다. 분산을 활용해서 상관계수를 구할 수 있다고 한다. 공식은 아래와 같다.


[ wiki ]


위의 식에서 분자는 공분산이고 분모의 좌측은 x의 표준편차 그리고 우측은 y의 표준편차이다. 그리고 x의 표준편차에 루트를 제거하면 x의 분산이고 마찬가지로 y의 표준편차에 루트를 제거하면 y의 분산이다.


    • 분자 : [ 공분산 ]
      (x데이터 변수 - x데이터 평균) * (x데이터 변수 - x데이터 평균) 선형결합

    • 분모 [ x 표준편차, y 표준편차 ]


상관분석은 기본적으로 두 개의 변수이기 때문에 치우침이 두 변수에 의해서 발생한다. 그래서 각각의 분산 외에 추가로, 두 변수의 공통된 치우침도 알아야 하는데 이 두 변수의 공통된 치우침을 공분산이라고 한다. 모호한 의미일수도 있는데 다른 자료를 살펴보니 공분산은 각 확률변수들이 어떻게 퍼져있는지를 나타내는 것이라고도 한다.


공분산은 x와 y의 단위 크기에 영향을 받으며 이를 보완하기 위해서 상관계수가 필요한 것이다. 예를 들어 100점이 만점인 과목 두 개가 있고 두 과목 모두 100점을 맞아버리면 공분산은 큰 값이 나오고 반대로 10점이 만점인 과목 두 개가 있고 두 과목 모두 10점을 맞아버리면 작은 값이 나온다.


공분산이 가진 한계 즉, 값의 범위가 정해져 있지 않아서 어떤 값을 기준으로 정하기 애매하기 때문에 공분산의 값을 정규화하여 특정범위에서만 나오게끔 상관계수를 이용한 것이다.



위의 식은 Pearson correlation coefficient 이다. 결과적으로 결과 값 r은 [ -1 ≤ r ≤ +1 ] 의 범위를 가지게 된다.


상관계수의 성질은 아래와 같다.


(1) 상관계수의 절대값은 1을 넘을 수 없다.

(2) 확률변수 X, Y가 독립이라면 상관계수는 0이다.

(3) X, Y가 선형적 관계라면 상관계수는 1 혹은 -1 이다.
(양의 선형관계 : 1, 음의 선형관계 : -1)



Posted by doubler
,