본문 바로가기
728x90
반응형

python4

09. 카이제곱 검정 ( chi-squared test ) 카이제곱검정은 카이제곱 분포(chi-squared distribution)를 따른다. 카이제곱 분포란? 정규분포를 따르는 모집단에서 크기가 n인 표본을 무작위로 반복 추출한다. 이 때 각 표본의 분산들이 카이제곱 분포를 따른다고 한다. 자유도가 커질수록 정규분포에 가까워지며 다음과 같이 나타난다. 자유도가 k인 카이제곱분포의 확률밀도함수(pdf) 공식은 다음과 같다. 카이제곱 분포는 모분산에 대한 추정과 검정에 사용된다. 관측도수가 이론 상의 분포에 적합한지, 여러 집단 사이의 독립성 검정이 다른 특성에 영향을 미치는가에 대한 검정을 한다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료 분석에 이용된다. 카이제곱 검정방법 독립성 검정: 두 변수는 서로 연관성이 있는가 없는가? 적합성 검정: 실제 표본이.. 2020. 5. 18.
08. 분산분석( ANOVA ) 분산분석이란? 기존에 공부했던 A/B 검정은 두 개의 그룹을 비교하였다. 그렇다면 A,B,C,D 그룹의 데이터를 비교한다고 가정하자. 여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 통계적 절차를 분산분석(ANOVA ; analysis of variance)이라고 한다. 예를 살펴보자. Page 1 Page 2 Page 3 Page 4 164 178 175 155 172 191 193 166 177 182 171 164 156 185 163 170 195 177 176 168 평균 172 185 176 162 이런 데이터가 있다면, A/B 검정을 할 때는 (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) 의 모든 페이지를 비교해야 한다. 하지만 이렇게 한 쌍씩 비교하는 횟수가 증가할수록.. 2020. 5. 17.
04. 다항 회귀( Polynomial Regression ) 다항 회귀란? 비선형 데이터를 학습하는데 선형 모델을 사용하는데, 각 특성의 거듭제곱을 새로운 특성으로 추가하고, 이 확장된 특성을 포함한 데이터셋에 선형 모델을 훈련시키는 것이다. 예시로 1차 선형 회귀와 다항 회귀가 어떻게 다른지 살펴보자. 계절마다의 에어컨 가격 트렌드를 살펴보자. 파란색의 선은 에어컨 가격의 절대적 트렌드이며, 실제 가격은 이 트렌드를 따른다. x가 1일 때 여름 -> 가장 높은 가격에 팔림 x가 3일 때 겨울 -> 가장 낮은 가격에 팔림 %matplotlib inline import numpy as np import pylab as pl # 사인 곡선 def data(size): x = np.linspace(0, 4.5, size) y = 2 * np.sin(x * 1.5) re.. 2020. 5. 14.
07. 자유도( degree of freedom ) 자유도란? 자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 예시로 살펴보자. 10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면? => 자연스럽게 10번째 값이 무엇인지 알 수 있다. 데이터 : 2 1 3 5 4 6 7 10 9 x 평균 : 5.5 이 때 x는 ? 8 자유도는 ? 9 ( = 10 - 1 ) 2차원 행렬에서도 자유도를 알 수 있다. a,b,c,d의 값 중 하나만 정해지면 다른 값들이 모두 결정되기 때문에 자유도는 1이다. 3 x 2 교차표에서는 2개의 값이 정해지면 나머지 값을 모두 채울 수 있다. 이렇게 n x m의 교차표는 (n-1)x(m-1)의 자유도를 따른다. 자유도가 필요한 이유는? 자유도는 모분산을 모르기 때문에 필요하.. 2020. 5. 14.
728x90
반응형