자유도란?
자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.
예시로 살펴보자.
10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면?
=> 자연스럽게 10번째 값이 무엇인지 알 수 있다.
데이터 : 2 1 3 5 4 6 7 10 9 x
평균 : 5.5
이 때 x는 ? 8
자유도는 ? 9 ( = 10 - 1 )
2차원 행렬에서도 자유도를 알 수 있다. a,b,c,d의 값 중 하나만 정해지면 다른 값들이 모두 결정되기 때문에 자유도는 1이다.
3 x 2 교차표에서는 2개의 값이 정해지면 나머지 값을 모두 채울 수 있다.
이렇게 n x m의 교차표는 (n-1)x(m-1)의 자유도를 따른다.
자유도가 필요한 이유는?
자유도는 모분산을 모르기 때문에 필요하다.
모집단에서 표본을 추출하면 표본의 평균은 모집단의 평균에 대해 클 수도 있고 적을수도 있으나 그 가능성은 공평하다. ( = 불편 추정 )
그러나 표본의 분산은 모집단의 분산보다 항상 작아지는 경향을 보인다.( = 편향의 경향성을 띔 )
따라서 표본의 분산을 모집단의 분산에 근사해지게 하는 비율을 찾게 되었다.
이 비율은 n / (n-1) 이고, 표본의 분산에 이 비율을 곱하면 모집단의 분산에 근사하게 된다.
그런데 분산의 원래 계산식에 있는 분모의 n이 약분되기 때문에 (n-1)만 남게된다.
결국 표본의 분산을 구할 때, n 대신 n-1을 나누면 표본의 분산을 모집단의 분산에 근사해지게 할 수 있다.
따라서 자유도는 표본의 평균을 구할 때는 사용되지 않고 표본의 분산을 구할 때만 사용된다.
표본의 분산은 왜 모집단의 분산보다 작을까?
'분산'은 제곱한 값들로 이루어져있기 때문이다.
따라서 집단의 크기가 큰 모집단의 분산은 당연히 집단의 크기가 비교적 작은 표본의 분산보다 클 수 밖에 없다.
하지만, 표본의 개수가 커짐에 따라 표본분산과 모분산과의 차이가 작아진다. 따라서 30개 이상 또는 그 이상의 대표본에 대해서는 표본의 분산을 구할 때 자유도(n-1)를 고려하지 않아도 된다.
'AI > Statistics' 카테고리의 다른 글
09. 카이제곱 검정 ( chi-squared test ) (4) | 2020.05.18 |
---|---|
08. 분산분석( ANOVA ) (0) | 2020.05.17 |
06. 다중 검정( Multiple Comparison ) (0) | 2020.05.13 |
05. t검정( t -test ) (0) | 2020.05.11 |
04. 통계적 유의성과 p-value (0) | 2020.05.10 |