본문 바로가기
AI/Statistics

07. 자유도( degree of freedom )

by _S0_H2_ 2020. 5. 14.
728x90
반응형

자유도란?

자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.

 

예시로 살펴보자.

10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면?
=> 자연스럽게 10번째 값이 무엇인지 알 수 있다.

데이터 : 2 1 3 5 4 6 7 10 9 x
평균 : 5.5

이 때 x는 ? 8
자유도는 ? 9 ( = 10 - 1 )

2차원 행렬에서도 자유도를 알 수 있다. a,b,c,d의 값 중 하나만 정해지면 다른 값들이 모두 결정되기 때문에 자유도는 1이다.

3 x 2 교차표에서는 2개의 값이 정해지면 나머지 값을 모두 채울 수 있다.
이렇게 n x m의 교차표는 (n-1)x(m-1)의 자유도를 따른다.

 

 

자유도가 필요한 이유는?

자유도는 모분산을 모르기 때문에 필요하다.

모집단에서 표본을 추출하면 표본의 평균모집단의 평균에 대해 클 수도 있고 적을수도 있으나 그 가능성은 공평하다. ( = 불편 추정 )

그러나 표본의 분산모집단의 분산보다 항상 작아지는 경향을 보인다.( = 편향의 경향성을 띔 )

따라서 표본의 분산모집단의  분산에 근사해지게 하는 비율을 찾게 되었다.

 

이 비율은 n / (n-1) 이고, 표본의 분산에 이 비율을 곱하면 모집단의 분산에 근사하게 된다. 

 

그런데 분산의 원래 계산식에 있는 분모의 n이 약분되기 때문에 (n-1)만 남게된다.

결국 표본의 분산을 구할 때, n 대신 n-1을 나누면 표본의 분산을 모집단의 분산에 근사해지게 할 수 있다. 

따라서 자유도는 표본의 평균을 구할 때는 사용되지 않고 표본의 분산을 구할 때만 사용된다.

 

 

표본의 분산은 왜 모집단의 분산보다 작을까?

'분산'은 제곱한 값들로 이루어져있기 때문이다.

따라서 집단의 크기가 큰 모집단의 분산은 당연히 집단의 크기가 비교적 작은 표본의 분산보다 클 수 밖에 없다.

 

하지만, 표본의 개수가 커짐에 따라 표본분산모분산과의 차이가 작아진다. 따라서 30개 이상 또는 그 이상의 대표본에 대해서는 표본의 분산을 구할 때 자유도(n-1)를 고려하지 않아도 된다.

 

 

 

 

 

 

 

728x90
반응형

'AI > Statistics' 카테고리의 다른 글

09. 카이제곱 검정 ( chi-squared test )  (4) 2020.05.18
08. 분산분석( ANOVA )  (0) 2020.05.17
06. 다중 검정( Multiple Comparison )  (0) 2020.05.13
05. t검정( t -test )  (0) 2020.05.11
04. 통계적 유의성과 p-value  (0) 2020.05.10