Pearson correlation coefficient - 상관계수

앞선 글에서 상관분석에 대해 살펴보았다. 상관분석이란 두 변수 x, y를 가지고 어떠한 관계가 있는지 파악하고 분석하는 것이라고 했다. 2차원 좌표평면에서 나타나는 두 변수들간의 관계를 파악하는경우 기울기에 따라서 양(+) 혹은 음(-)의 관계로 나눌 수 있다.


여기서, 2차원 좌표평면에서 나타나는 점들이 모여있는 밀도는 어떻게 표현할까?




양쪽의 그림을 보면 양의 상관관계를 가지고 있지만, 점들의 밀도에는 차이가 난다. 그림에서 보이다시피 2번의 상관관계가 밀도가 더 높음을 확인할 수 있다. 통계에서는 숫자를 사용해서 밀도를 표현하는데, 이 밀도를 표현한 숫자를 상관계수라고 부르며 기호는 r을 사용한다.


상관계수의 수치 r을 사용하면, 밀도가 표현이 가능하다. 일반적으로 숫자 [ -1 ≤ r ≤ +1 ] 을 사용한다. r의 수치가 -1에 가까울수록 음의 상관관계가 강해지고 +1에 가까울수록 양의 상관관계가 강해진다. 또한 r의 수치가 0에 가까울수록 상관관계가 약하다는 뜻이며, 상관관계가 없음이라고 말할 수 있다.



위의 그림은 상관계수 r에 따른 상관관계에 대한 정도의 차이를 보여주고 있다. 위의 그림은 어림짐작으로 표현된 것이며, 위의 모양이 절대적인 척도는 아니다. 음의 상관관계는 절대값을 씌어 양수로 변환하고 우리가 파악하고자 하는 변수들이 상관관계가 높은지 혹은 낮은지를 알아야한다. 



Posted by doubler
,