728x90 반응형 AI24 05. 릿지 회귀, 라쏘 회귀 ( Ridge, Lasso ) 단순선형회귀와의 비교 가장 처음 공부한 선형회귀는 MSE를 최소화하는 기울기와 절편을 찾았다. 릿지와 라쏘는 오차값에 규제항 또는 벌점항을 추가하여 좀 더 단순화된 모델, 일반화된 모델을 제공한다. 이렇게 단순화하거나 일반화된 모델에서는 훈련셋에 덜 과적합 되기 때문에 테스트셋에 더 적합한 모델을 만들 수 있다. 릿지는 w의 제곱항(L2 규제)을, 라쏘는 w의 절대값(L1 규제)를 추가한다. α는 규제의 강도를 의미한다. 아래의 코드로 MSE, L2, L1이 다른 부분을 살펴보자. # module import %pylab inline import numpy as np import matplotlib.pyplot as plt # plot의 크기 설정 fig = plt.figure(figsize=[12,6].. 2020. 5. 15. 04. 다항 회귀( Polynomial Regression ) 다항 회귀란? 비선형 데이터를 학습하는데 선형 모델을 사용하는데, 각 특성의 거듭제곱을 새로운 특성으로 추가하고, 이 확장된 특성을 포함한 데이터셋에 선형 모델을 훈련시키는 것이다. 예시로 1차 선형 회귀와 다항 회귀가 어떻게 다른지 살펴보자. 계절마다의 에어컨 가격 트렌드를 살펴보자. 파란색의 선은 에어컨 가격의 절대적 트렌드이며, 실제 가격은 이 트렌드를 따른다. x가 1일 때 여름 -> 가장 높은 가격에 팔림 x가 3일 때 겨울 -> 가장 낮은 가격에 팔림 %matplotlib inline import numpy as np import pylab as pl # 사인 곡선 def data(size): x = np.linspace(0, 4.5, size) y = 2 * np.sin(x * 1.5) re.. 2020. 5. 14. 07. 자유도( degree of freedom ) 자유도란? 자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 예시로 살펴보자. 10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면? => 자연스럽게 10번째 값이 무엇인지 알 수 있다. 데이터 : 2 1 3 5 4 6 7 10 9 x 평균 : 5.5 이 때 x는 ? 8 자유도는 ? 9 ( = 10 - 1 ) 2차원 행렬에서도 자유도를 알 수 있다. a,b,c,d의 값 중 하나만 정해지면 다른 값들이 모두 결정되기 때문에 자유도는 1이다. 3 x 2 교차표에서는 2개의 값이 정해지면 나머지 값을 모두 채울 수 있다. 이렇게 n x m의 교차표는 (n-1)x(m-1)의 자유도를 따른다. 자유도가 필요한 이유는? 자유도는 모분산을 모르기 때문에 필요하.. 2020. 5. 14. 03. 다중선형회귀( Multiple Linear Regression ) 선형회귀란 ? 선형 회귀(Linear Regression)는 회귀 문제를 예측할 때 사용하는 알고리즘 중 하나이다. '독립 변수가 커질 때 종속 변수가 크거나 작게 변하는' 관계를 모델링 하는 것이다. 선형회귀는 보통 하나 이상의 독립 변수를 사용하여 모델링한다. 이 때, 독립 변수가 둘 이상이면 '다중선형회귀( multiple linear regression)'라고 한다. 다중선형회귀란? 행렬식으로 나타내보면 다음과 같다. tensorflow를 이용할 때 placeholder 생성 시 shape을 잘 맞춰주어야 한다. 그래야 matmul 함수를 사용했을 때 식이 성립되기 때문이다. 예를 들어 위의 식은 [ 3, 1 ] * [ 1 * 3 ] = [ 1 * 1 ] 이므로 성립 가능하다. 이 과정을 수식으로.. 2020. 5. 13. 06. 다중 검정( Multiple Comparison ) 다중검정이란? 다중검정은 검정군이 3가지이상인 경우에 5%의 유의수준으로 유의미하다고 말할 수 있을까? 로부터 시작된다. 예를 들어 실험군이 1000개가 있다. 실험군 1이 나머지 999개의 실험군보다 p 2020. 5. 13. 02. 단순선형회귀( Simple Linear Regression ) 선형회귀란 ? 선형 회귀(Linear Regression)는 회귀 문제를 예측할 때 사용하는 알고리즘 중 하나이다. '독립 변수가 커질 때 종속 변수가 크거나 작게 변하는' 관계를 모델링 하는 것이다. 선형회귀는 보통 하나 이상의 독립 변수를 사용하여 모델링한다. 이 때, 독립 변수가 하나면 '단순선형회귀(simple linear regression)'라고 한다. 단순선형회귀란? 이 식에서 모델이 기울기(w1,w)와 절편(w0,b)을 바꿔가면서 최적의 기울기, 절편을 찾는다. 이 때, '최적이 되는 기준'은 평균제곱오차(MSE)의 값이 최소가 될 때이다. code 1 ) sklearn module from sklearn.linear_model import LinearRegression X = [[10.0.. 2020. 5. 11. 05. t검정( t -test ) 검정의 종류 평균 검정이란 단일 or 독립 집단 사이의 가설 검증을 위한 수단이다. 집단의 평균의 차를 비교하기 위해 수치형 변수를 사용한다. 검정통계량(평균검정 : t값)과 p-value를 계산하여 신뢰구간을 만족하는지 확인하고, 가설의 채택 여부를 결정한다. 평균검정에는 z-검정, t-검정, 분산분석으로 나뉜다. z-검정과 t-검정은 비교 집단이 2개 이하일 경우, 분산분석은 비교 집단이 3개 이상일 경우 사용한다. z-검정은 모분산을 알고 있을 때만 사용이 가능한 반면, t-검정은 모분산을 모를 때도 사용이 가능하다. t-검정의 종류 1. 일표본(단일 표본) t-검정( 1-sample T-test ) : 기존에 알려져 있는 평균 값이 맞는지를 확인하기 위한 검정방법 일반적으로 모집단의 평균이 특정 .. 2020. 5. 11. 04. 통계적 유의성과 p-value 통계적 유의성이란? 통계학자가 자신의 실험 결과가 우연히 일어난 것인지 or 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법이다. 결과가 우연히 벌어질 수 있는 변동성의 바깥에 존재한다면 통계적으로 유의하다고 말한다. 유의성 검정의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것이다. 유의성 검정을 판단하기 위해 p-value를 사용한다. p-value과 유의수준 α를 비교하여 가설에 대한 결론을 내린다. 용어 알아보기 p-value : 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률 유의수준 α : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 기회 결과가 능가해야하는 '비정상적인' 가능성의 임계 확률 제 1종 오류 : 우연에 의한 효과가 실제 효과라.. 2020. 5. 10. 01. 머신러닝 모델 평가 방법 머신러닝은 여러 개의 모델로 학습을 할 수 있습니다. 각각의 알고리즘이 특성, 차이가 있기 때문에 모델을 평가할 지표가 필요합니다. 지도 학습의 평가 1. 분류 문제 혼동 행렬(confusion matrix), 정확도(accuracy), 정밀도(precision), 재현율(recall), F값(F1-score), 곡선아래면적(AUC) 2. 회귀문제 평균제곱오차(MSE), 결정계수(coefficientg of determination) 분류 문제의 평가 방법 '미국 위스콘신 대학'의 '유방암 진단 데이터세트'를 로지스틱 회귀 모델로 머신러닝한 코드로 여러 평가 방법을 알아보겠습니다. code # 모듈 및 데이터 로드 from sklearn.datasets import load_breast_cancer fr.. 2020. 5. 10. 00. 머신러닝 개요 머신러닝의 유형 입력 데이터가 무엇인지에 따라 크게 세 가지의 유형으로 나뉜다. 1. 지도학습 2. 비지도학습 3. 강화학습 지도 학습( supervised learning ) 지도학습 : 문제의 정답을 컴퓨터에 입력해 모델을 학습시키는 것 독립변수와 종속변수를 모두 학습시킨 뒤, 새로운 독립변수 데이터가 들어왔을 때의 결과를 출력한다. 지도학습은 크게 분류(classification)와 회귀(regression)가 있다. 예를 들어보자. 분류 : 키, 체중의 값을 학습시켜 성별을 알아낸다. 회귀 : 성별, 키의 값을 학습시켜 신발사이즈를 알아낸다. 이 때, 성별은 남/여 라는 두 가지 값이고 신발사이즈는 연속적인 값이다. 비지도학습( unsupervised learning ) 비지도 학습은 정답을 나타.. 2020. 5. 10. 이전 1 2 3 다음 728x90 반응형