07. 자유도( degree of freedom )

728x90

자유도란?

자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.

예시로 살펴보자.

10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면?
=> 자연스럽게 10번째 값이 무엇인지 알 수 있다.

데이터 : 2 1 3 5 4 6 7 10 9 x
평균 : 5.5

이 때 x는 ? 8
자유도는 ? 9 ( = 10 - 1 )

2차원 행렬에서도 자유도를 알 수 있다. a,b,c,d의 값 중 하나만 정해지면 다른 값들이 모두 결정되기 때문에 자유도는 1이다.

3 x 2 교차표에서는 2개의 값이 정해지면 나머지 값을 모두 채울 수 있다.
이렇게 n x m의 교차표는 (n-1)x(m-1)의 자유도를 따른다.

자유도는 모분산을 모르기 때문에 필요하다.

모집단에서 표본을 추출하면 표본의 평균은 모집단의 평균에 대해 클 수도 있고 적을수도 있으나 그 가능성은 공평하다. ( = 불편 추정 )

그러나 표본의 분산은 모집단의 분산보다 항상 작아지는 경향을 보인다.( = 편향의 경향성을 띔 )

따라서 표본의 분산을 모집단의 분산에 근사해지게 하는 비율을 찾게 되었다.

이 비율은 n / (n-1) 이고, 표본의 분산에 이 비율을 곱하면 모집단의 분산에 근사하게 된다.

그런데 분산의 원래 계산식에 있는 분모의 n이 약분되기 때문에 (n-1)만 남게된다.

결국 표본의 분산을 구할 때, n 대신 n-1을 나누면 표본의 분산을 모집단의 분산에 근사해지게 할 수 있다.

따라서 자유도는 표본의 평균을 구할 때는 사용되지 않고 표본의 분산을 구할 때만 사용된다.

'분산'은 제곱한 값들로 이루어져있기 때문이다.

따라서 집단의 크기가 큰 모집단의 분산은 당연히 집단의 크기가 비교적 작은 표본의 분산보다 클 수 밖에 없다.

하지만, 표본의 개수가 커짐에 따라 표본분산과 모분산과의 차이가 작아진다. 따라서 30개 이상 또는 그 이상의 대표본에 대해서는 표본의 분산을 구할 때 자유도(n-1)를 고려하지 않아도 된다.

자유도 Degrees of Freedom, df

자유도란 실질적으로 독립인 값들의 개수를 의미한다. 예를 들어 평균이 m인 10개의 자료 중에서 9개의 값은 아무 값이나 자유롭게 취할 수 있지만, 평균이 정해져 있다면 마지막 남은 1개의 값은

dermabae.tistory.com

자유도

통계학에서 자유도(degree of freedom)란 무엇일까요?보통은 이렇게 설명합니다. 표본 n 개를 선택할 때에 마지막 1개는 모집단의 평균과 같아지도록 표본집합을 구성하도록 선택되어져야 하므로 그

brunch.co.kr

728x90