나는 수학실력이 형편없다. 그래서 상관계수를 계산하기 이전에, 아래의 내용들을 선행으로 보게되었다. 내용은 간결하고 이해하기 쉽도록 설명했다. 글을 써주신 분에게 감사함을. 해당 소제목들에는 모두 링크가 걸려있다.


[ 모집단과 표본의 관계는? ]

- 전체는 모집단, 일부는 표본(=표본집단) 으로 부르며 표본의 양이 많을수록 데이터의 신뢰도는 올라간다.


[ 분산과 표준편차와 평균의 관계는? ]

- 오차란 무엇인가? 어느 치우침이다. 

- 통계는 이 치우침을 분석하고 관리하는 역할을 한다.

- 치우침을 표현하는 대표적인 척도가 표준편차와 표준편차의 제곱인 분산이다.


좀 더 부가설명을 하면, 평균은 어느 특정 확률변수 분포의 중간을 알아내는 것이고, 분산은 분포가 얼마나 퍼져있는지를 알아내는 것이다.


치우침을 알기위해서는 기준이 되는 기준점이 필요하며, 일반적으로 통계에서는 기준점으로 평균을 이용한다. (그 밖에 최빈값, 중앙값 등 존재) 


[ 표준편차가 있는데도 분산을 사용하는 이유? ]

평균에서 데이터 값 사이를 보통 편차라고 부른다. 그럼 데이터의 값이 여러개인 경우에 편차는 모두 더해주어야 한다. 하지만 여기서 편차가 음수가 될 수 있다. 왜냐고? 평균을 기준으로 한 쪽 음수영역, 반대쪽은 양수영역이기 때문이다. 


따라서 음수에 해당하는 값들 때문에 편차로서 원하는 값을 얻기위해 데이터 값을 제곱해서 모두 더한다. 여기서 제곱의 합이기 때문에 실질적인 편차의 치우침보다 더 큰 값이 나오고 이러한 값의 조절을 위해 루트를 사용한다.


[ 분산과 표준편차 의미 ]

ex) 수학, 사회, 과학, 영어 과목을 시험쳤다. 각각 60, 70, 80, 90점을 맞았다. 

(1) 평균

(60 + 70 + 80 + 90) / 4 = 75

(2) 평균은 70, 수학, 사회, 과학, 영어 각 과목의 편차

수학 = 60 - 75 = -15

사회 = 70 - 75 = -5

과학 = 80 - 75 = 5

영어 = 90 - 75 = 25

(3) 편차의 제곱의 평균 구하기, 각각의 편차를 1, -2, -3, 4로 지정

1^2 = 1

(-2)^2 = 4

(-3)^2 = 9

4^2 = 16

(4) (3)의 내용에 편차 제곱의 평균 (=분산)

(1+4+9+16) / 4 = 7.5

(5) 표준편차 (=루트분산)

7.5 에 루트를 씌운 값 √7.5가 표준편차 



정리하면, 


평균 → (변량 - 평균) → 

편차 → (편차 제곱의 평균) → 

분산 → (분산에 루트) → 

표준편차


링크 걸어둔 게시글에 매우 친절하게 그리고 쉽게 설명되어 있다. 추가로 하나 더.



[ 공분산과 상관계수 ]

- 확률변수가 두가지 일때, 이 확률분포들이 어떤 모양으로 되어있는지를 알고싶을때 가장 먼저 X의 평균, Y의 평균을 구해야 한다.


평균을 구하게 되면, 해당 분포들이 어디에 주로 모여있는지를 파악 가능하다.

분산을 구하게 되면, 해당 분포들이 얼마나 퍼져있는지를 파악가능한데 각 확률변수들이 어떻게 퍼져있는지를 나타내는 것은 공분산(Covariance)이다.


Cov(X, Y) > 0 : X가 증가할 때 Y도 증가한다.

Cov(X, Y) < 0 : X가 증가할 때 Y는 감소한다.

Cov(X, Y) = 0 : 공분산이 0이라면 두 변수 간의 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다. (영향을 서로 끼치지 않음) 하지만 공분산이 0이라고 해서 항상 독립적인 것은 아니라고 한다.


Posted by doubler
,