본문 바로가기
728x90
반응형

전체 글164

09. 나이브베이즈 분류 ( Naive Bayse classification ) 나이브 베이즈 분류? 기본적으로 각 속성값 확률을 기반으로 범주에 속한 인스턴스를 확률로 결정한다. '나이브'는 다른 속성과 독립적이라는 의미로, 속성값은 다른 속성값과 관계가 없음을 의미한다. 베이즈 정리 매개변수 x,y가 있을 때, 분류1에 속할 확률이 p1(x,y) 이고, 분류 2 에 속할 확률이 p2(x,y)이면 * p1(x,y) > p2(x,y) 이면, 분류1 * p1(x,y) 2020. 5. 21.
10. 멀티암드 밴딧 알고리즘( MAB;Multi-armed bandit ) 가장 처음에 공부했던 A/B 검정에서 이러한 결론이 있었다. 따라서, 멀티암드 밴딧과 같은 새로운 유형의 실험설계가 필요해졌다. 멀티암드 밴딧은 실험설계에 대한 전통적인 통계적 접근방식보다 명시적인 최적화, 빠른 의사 결정을 위해 사용한다. 어원 슬롯머신의 팔(=밴딧)을 당기면 돈을 얻게 된다. 만약, 슬롯머신에 둘 이상의 손잡이가 달려있고 각 손잡이가 다른 속도로 돈을 지불한다면 우리는 많은 상금이 나오는 손잡이를 빨리 확인하고자 할 것이다. 다음과 같이 가정해보자. 손잡이 A : 50번 중 10번 승리 손잡이 B : 50번 중 2번 승리 손잡이 C : 50번 중 4번 승리 그러면 우리는 A가 최고의 손잡이인 것 처럼 보인다. 하지만 사실 B,C가 더 좋다면 우리는 A를 당기기 때문에 B,C를 놓치게 .. 2020. 5. 20.
08. 서포트 벡터 머신 ( support vector machine ) 서포트 벡터 머신( Support Vector Machine ) 서포트 벡터 머신은 분류 과제에 사용할 수 있는 강력한 머신러닝 지도학습 모델이다. 결정 경계(Decision Boundary), 기준 선을 정의하여 어느 쪽에 속하는지 확인하여 분류를 하는 것이다. 최적의 결정 경계(Decision Boundary) 다른 그림으로 얼마나 많은 선을 그을 수 있을지 살펴보자면? 가운데 색칠된 부분에서 기울기를 만족한다면, 모든 선은 결정 경계가 될 수 있다. 따라서 똑같은 군집이 있더라도 다음과 같이 결정 경계를 설정할 수 있다. 각 그룹의 선을 살펴보았을 때, 그룹C는 파란 점과 너무 가까워서 아슬아슬해보인다. 그렇다면 가장 안정적이어 보이는 결정 경계는 ? 아마 F일 것이다. 두 분류에서 거리가 가장 멀.. 2020. 5. 19.
09. 카이제곱 검정 ( chi-squared test ) 카이제곱검정은 카이제곱 분포(chi-squared distribution)를 따른다. 카이제곱 분포란? 정규분포를 따르는 모집단에서 크기가 n인 표본을 무작위로 반복 추출한다. 이 때 각 표본의 분산들이 카이제곱 분포를 따른다고 한다. 자유도가 커질수록 정규분포에 가까워지며 다음과 같이 나타난다. 자유도가 k인 카이제곱분포의 확률밀도함수(pdf) 공식은 다음과 같다. 카이제곱 분포는 모분산에 대한 추정과 검정에 사용된다. 관측도수가 이론 상의 분포에 적합한지, 여러 집단 사이의 독립성 검정이 다른 특성에 영향을 미치는가에 대한 검정을 한다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료 분석에 이용된다. 카이제곱 검정방법 독립성 검정: 두 변수는 서로 연관성이 있는가 없는가? 적합성 검정: 실제 표본이.. 2020. 5. 18.
07. 로지스틱 회귀( Logistic Regression ) 로지스틱 회귀란? 로지스틱 회귀는 지도 학습의 분류 문제에 사용된다. 데이터가 집단 각각에 속하는 확률을 계산하여 데이터를 분류해낸다. 선형함수가 아닌 로짓함수를 사용하여 진행한다. 따라서 회귀분석의 모형은 목표집단에 속할 확률과 그렇지 않을 확률의 비율에 자연로그를 취한 값을 출력한다. 이를 그려보면 비선형 S자의 형태를 띈다. import matplotlib.pyplot as plt import numpy as np # f(x) = 1 / ( 1 + e ** (-x))를 그려보자 x = np.arange(-10,10,0.1) y = 1 / ( 1 + np.exp(-x)) plt.scatter(x,y) 확률 : 발생할 확률 / 전체 오즈 : 발생할 확률 / 발생하지 않을 확률 ( 0 ~ 무한대 ) 로짓.. 2020. 5. 18.
06. 선형 회귀의 한계점 다음 예제를 통해 선형 회귀에 어떤 한계가 있는지 살펴보자. x_data가 1, 2, 5, 8, 10이다. y값은 0.5 이상이면 1(pass), 0.5 미만이면 0(fail)이라고 하자. # module import import tensorflow as tf # 학습 data 생성 x_data = [1,2,5,8,10] y_data = [0,0,0,1,1] x = tf.placeholder(dtype=tf.float32) y = tf.placeholder(dtype=tf.float32) W = tf.Variable(tf.random_normal([1]), name = "Weight") b = tf.Variable(tf.random_normal([1]), name = "bias") H = W * x + .. 2020. 5. 17.
08. 분산분석( ANOVA ) 분산분석이란? 기존에 공부했던 A/B 검정은 두 개의 그룹을 비교하였다. 그렇다면 A,B,C,D 그룹의 데이터를 비교한다고 가정하자. 여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 통계적 절차를 분산분석(ANOVA ; analysis of variance)이라고 한다. 예를 살펴보자. Page 1 Page 2 Page 3 Page 4 164 178 175 155 172 191 193 166 177 182 171 164 156 185 163 170 195 177 176 168 평균 172 185 176 162 이런 데이터가 있다면, A/B 검정을 할 때는 (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) 의 모든 페이지를 비교해야 한다. 하지만 이렇게 한 쌍씩 비교하는 횟수가 증가할수록.. 2020. 5. 17.
05. 릿지 회귀, 라쏘 회귀 ( Ridge, Lasso ) 단순선형회귀와의 비교 가장 처음 공부한 선형회귀는 MSE를 최소화하는 기울기와 절편을 찾았다. 릿지와 라쏘는 오차값에 규제항 또는 벌점항을 추가하여 좀 더 단순화된 모델, 일반화된 모델을 제공한다. 이렇게 단순화하거나 일반화된 모델에서는 훈련셋에 덜 과적합 되기 때문에 테스트셋에 더 적합한 모델을 만들 수 있다. 릿지는 w의 제곱항(L2 규제)을, 라쏘는 w의 절대값(L1 규제)를 추가한다. α는 규제의 강도를 의미한다. 아래의 코드로 MSE, L2, L1이 다른 부분을 살펴보자. # module import %pylab inline import numpy as np import matplotlib.pyplot as plt # plot의 크기 설정 fig = plt.figure(figsize=[12,6].. 2020. 5. 15.
04. 다항 회귀( Polynomial Regression ) 다항 회귀란? 비선형 데이터를 학습하는데 선형 모델을 사용하는데, 각 특성의 거듭제곱을 새로운 특성으로 추가하고, 이 확장된 특성을 포함한 데이터셋에 선형 모델을 훈련시키는 것이다. 예시로 1차 선형 회귀와 다항 회귀가 어떻게 다른지 살펴보자. 계절마다의 에어컨 가격 트렌드를 살펴보자. 파란색의 선은 에어컨 가격의 절대적 트렌드이며, 실제 가격은 이 트렌드를 따른다. x가 1일 때 여름 -> 가장 높은 가격에 팔림 x가 3일 때 겨울 -> 가장 낮은 가격에 팔림 %matplotlib inline import numpy as np import pylab as pl # 사인 곡선 def data(size): x = np.linspace(0, 4.5, size) y = 2 * np.sin(x * 1.5) re.. 2020. 5. 14.
07. 자유도( degree of freedom ) 자유도란? 자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 예시로 살펴보자. 10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면? => 자연스럽게 10번째 값이 무엇인지 알 수 있다. 데이터 : 2 1 3 5 4 6 7 10 9 x 평균 : 5.5 이 때 x는 ? 8 자유도는 ? 9 ( = 10 - 1 ) 2차원 행렬에서도 자유도를 알 수 있다. a,b,c,d의 값 중 하나만 정해지면 다른 값들이 모두 결정되기 때문에 자유도는 1이다. 3 x 2 교차표에서는 2개의 값이 정해지면 나머지 값을 모두 채울 수 있다. 이렇게 n x m의 교차표는 (n-1)x(m-1)의 자유도를 따른다. 자유도가 필요한 이유는? 자유도는 모분산을 모르기 때문에 필요하.. 2020. 5. 14.
03. 다중선형회귀( Multiple Linear Regression ) 선형회귀란 ? 선형 회귀(Linear Regression)는 회귀 문제를 예측할 때 사용하는 알고리즘 중 하나이다. '독립 변수가 커질 때 종속 변수가 크거나 작게 변하는' 관계를 모델링 하는 것이다. 선형회귀는 보통 하나 이상의 독립 변수를 사용하여 모델링한다. 이 때, 독립 변수가 둘 이상이면 '다중선형회귀( multiple linear regression)'라고 한다. 다중선형회귀란? 행렬식으로 나타내보면 다음과 같다. tensorflow를 이용할 때 placeholder 생성 시 shape을 잘 맞춰주어야 한다. 그래야 matmul 함수를 사용했을 때 식이 성립되기 때문이다. 예를 들어 위의 식은 [ 3, 1 ] * [ 1 * 3 ] = [ 1 * 1 ] 이므로 성립 가능하다. 이 과정을 수식으로.. 2020. 5. 13.
06. 다중 검정( Multiple Comparison ) 다중검정이란? 다중검정은 검정군이 3가지이상인 경우에 5%의 유의수준으로 유의미하다고 말할 수 있을까? 로부터 시작된다. 예를 들어 실험군이 1000개가 있다. 실험군 1이 나머지 999개의 실험군보다 p 2020. 5. 13.
02. 단순선형회귀( Simple Linear Regression ) 선형회귀란 ? 선형 회귀(Linear Regression)는 회귀 문제를 예측할 때 사용하는 알고리즘 중 하나이다. '독립 변수가 커질 때 종속 변수가 크거나 작게 변하는' 관계를 모델링 하는 것이다. 선형회귀는 보통 하나 이상의 독립 변수를 사용하여 모델링한다. 이 때, 독립 변수가 하나면 '단순선형회귀(simple linear regression)'라고 한다. 단순선형회귀란? 이 식에서 모델이 기울기(w1,w)와 절편(w0,b)을 바꿔가면서 최적의 기울기, 절편을 찾는다. 이 때, '최적이 되는 기준'은 평균제곱오차(MSE)의 값이 최소가 될 때이다. code 1 ) sklearn module from sklearn.linear_model import LinearRegression X = [[10.0.. 2020. 5. 11.
05. t검정( t -test ) 검정의 종류 평균 검정이란 단일 or 독립 집단 사이의 가설 검증을 위한 수단이다. 집단의 평균의 차를 비교하기 위해 수치형 변수를 사용한다. 검정통계량(평균검정 : t값)과 p-value를 계산하여 신뢰구간을 만족하는지 확인하고, 가설의 채택 여부를 결정한다. 평균검정에는 z-검정, t-검정, 분산분석으로 나뉜다. z-검정과 t-검정은 비교 집단이 2개 이하일 경우, 분산분석은 비교 집단이 3개 이상일 경우 사용한다. z-검정은 모분산을 알고 있을 때만 사용이 가능한 반면, t-검정은 모분산을 모를 때도 사용이 가능하다. t-검정의 종류 1. 일표본(단일 표본) t-검정( 1-sample T-test ) : 기존에 알려져 있는 평균 값이 맞는지를 확인하기 위한 검정방법 일반적으로 모집단의 평균이 특정 .. 2020. 5. 11.
04. 통계적 유의성과 p-value 통계적 유의성이란? 통계학자가 자신의 실험 결과가 우연히 일어난 것인지 or 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법이다. 결과가 우연히 벌어질 수 있는 변동성의 바깥에 존재한다면 통계적으로 유의하다고 말한다. 유의성 검정의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것이다. 유의성 검정을 판단하기 위해 p-value를 사용한다. p-value과 유의수준 α를 비교하여 가설에 대한 결론을 내린다. 용어 알아보기 p-value : 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률 유의수준 α : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 기회 결과가 능가해야하는 '비정상적인' 가능성의 임계 확률 제 1종 오류 : 우연에 의한 효과가 실제 효과라.. 2020. 5. 10.
01. 머신러닝 모델 평가 방법 머신러닝은 여러 개의 모델로 학습을 할 수 있습니다. 각각의 알고리즘이 특성, 차이가 있기 때문에 모델을 평가할 지표가 필요합니다. 지도 학습의 평가 1. 분류 문제 혼동 행렬(confusion matrix), 정확도(accuracy), 정밀도(precision), 재현율(recall), F값(F1-score), 곡선아래면적(AUC) 2. 회귀문제 평균제곱오차(MSE), 결정계수(coefficientg of determination) 분류 문제의 평가 방법 '미국 위스콘신 대학'의 '유방암 진단 데이터세트'를 로지스틱 회귀 모델로 머신러닝한 코드로 여러 평가 방법을 알아보겠습니다. code # 모듈 및 데이터 로드 from sklearn.datasets import load_breast_cancer fr.. 2020. 5. 10.
00. 머신러닝 개요 머신러닝의 유형 입력 데이터가 무엇인지에 따라 크게 세 가지의 유형으로 나뉜다. 1. 지도학습 2. 비지도학습 3. 강화학습 지도 학습( supervised learning ) 지도학습 : 문제의 정답을 컴퓨터에 입력해 모델을 학습시키는 것 독립변수와 종속변수를 모두 학습시킨 뒤, 새로운 독립변수 데이터가 들어왔을 때의 결과를 출력한다. 지도학습은 크게 분류(classification)와 회귀(regression)가 있다. 예를 들어보자. 분류 : 키, 체중의 값을 학습시켜 성별을 알아낸다. 회귀 : 성별, 키의 값을 학습시켜 신발사이즈를 알아낸다. 이 때, 성별은 남/여 라는 두 가지 값이고 신발사이즈는 연속적인 값이다. 비지도학습( unsupervised learning ) 비지도 학습은 정답을 나타.. 2020. 5. 10.
03. 재표본추출 재표본추출이란 ? 통계학에서 재표본추출의 목표는 랜덤한 변동성을 알아보기 위함이다. 재표본추출은 표본을 반복적으로 추출하는 것을 의미한다. 이를 적용하면 머신러닝 모델의 정확성을 평가하고, 향상시킬 수 있다. [ 재표본추출의 유형 ] 1 ) 부트스트랩 2 ) 순열 검정 재표본추출은 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정을 포함하는 반면, 부트스트랩은 항상 관측된 데이터로부터 복원 추출한다. 부트스트랩은 추정의 신뢰성을 평가하는데 사용된다. 1. 부트스트랩( bootstrap ) 어원 pull your self up by your bootstraps이라는 말에서 유래되었다. 외부의 도움 없이 어떤 과정을 수행해나갈 수 있음을 의미한다. 장점 1 ) 데이터셋의 분포가 고르지 않은 경우에.. 2020. 5. 9.
02. 가설 검정 가설 검정이란? 가설 검정, 유의성 검정은 전통적인 통계분석 방법이다. 목적은 관찰된 효과가 우연에 의한 것인지 여부를 알아내는 것이다. 이는 연구자가 랜덤하게 우연히 일어난 일에 속지 않도록 보호하기 위한 방법으로 개발되었다. 적절하게 설계된 A / B 검정에서는, A와 B 사이의 관찰된 차이가 1 ) 우연한 대상 선정 2 ) A와 B의 진정한 차이로 설명될 수 있도록 데이터를 수집한다. 가설 검정은 어떻게 이루어질까? 가, 나 그룹이 있을 때 실험에서 얻은 그룹간의 차이가 랜덤을 통해 얻을 수 있는 합리적인 수준과는 극단적으로 다르다는 증거를 보여야 한다. 그래서 두 가설을 세운다. 귀무가설 : 그룹들이 보이는 결과는 서로 동일하며, 그룹 간의 차이는 우연에 의한 결과이다. ( 이건 우연이야~ ) 대.. 2020. 5. 8.
01. A / B 검정 A / B 검정이란? A / B 검정은 두 개의 선택 중 어느 쪽이 다른 쪽 보다 우월함을 입증하기 위해서 실험군을 두 그룹으로 나누어 진행하는 실험이다. 이 때, 두 그룹은 다음의 용어를 사용한다. 대조군 : 어떤 처리도 하지 않은 대상들의 집단 처리군 : 어떤 처리에 노출된 대상들의집단 두 그룹은 무작위로 할당되어 실험을 위한 처리가 이루어진다. 즉, 실험 결과에서 나타난 차이점은 1 ) 다른 처리의 효과 2 ) 어떤 대상이 어떤 그룹에 배정될지에 대한 경우의 수에 의해 나타난다고 말할 수 있다. 또한, 결과를 나타내는 측정 지표에도 주의를 기울여야 한다. 측정 지표는 연속형 변수, 횟수를 나타내는 변수에 따라 결과가 다르게 표시될 수 있기 때문이다. A / B 검정은 유의미한가? 1 ) 널리 사용되.. 2020. 5. 8.
728x90
반응형