본문 바로가기
728x90
반응형

전체 글 보기164

03. 다중선형회귀( Multiple Linear Regression ) 선형회귀란 ? 선형 회귀(Linear Regression)는 회귀 문제를 예측할 때 사용하는 알고리즘 중 하나이다. '독립 변수가 커질 때 종속 변수가 크거나 작게 변하는' 관계를 모델링 하는 것이다. 선형회귀는 보통 하나 이상의 독립 변수를 사용하여 모델링한다. 이 때, 독립 변수가 둘 이상이면 '다중선형회귀( multiple linear regression)'라고 한다. 다중선형회귀란? 행렬식으로 나타내보면 다음과 같다. tensorflow를 이용할 때 placeholder 생성 시 shape을 잘 맞춰주어야 한다. 그래야 matmul 함수를 사용했을 때 식이 성립되기 때문이다. 예를 들어 위의 식은 [ 3, 1 ] * [ 1 * 3 ] = [ 1 * 1 ] 이므로 성립 가능하다. 이 과정을 수식으로.. 2020. 5. 13.
06. 다중 검정( Multiple Comparison ) 다중검정이란? 다중검정은 검정군이 3가지이상인 경우에 5%의 유의수준으로 유의미하다고 말할 수 있을까? 로부터 시작된다. 예를 들어 실험군이 1000개가 있다. 실험군 1이 나머지 999개의 실험군보다 p 2020. 5. 13.
02. 단순선형회귀( Simple Linear Regression ) 선형회귀란 ? 선형 회귀(Linear Regression)는 회귀 문제를 예측할 때 사용하는 알고리즘 중 하나이다. '독립 변수가 커질 때 종속 변수가 크거나 작게 변하는' 관계를 모델링 하는 것이다. 선형회귀는 보통 하나 이상의 독립 변수를 사용하여 모델링한다. 이 때, 독립 변수가 하나면 '단순선형회귀(simple linear regression)'라고 한다. 단순선형회귀란? 이 식에서 모델이 기울기(w1,w)와 절편(w0,b)을 바꿔가면서 최적의 기울기, 절편을 찾는다. 이 때, '최적이 되는 기준'은 평균제곱오차(MSE)의 값이 최소가 될 때이다. code 1 ) sklearn module from sklearn.linear_model import LinearRegression X = [[10.0.. 2020. 5. 11.
05. t검정( t -test ) 검정의 종류 평균 검정이란 단일 or 독립 집단 사이의 가설 검증을 위한 수단이다. 집단의 평균의 차를 비교하기 위해 수치형 변수를 사용한다. 검정통계량(평균검정 : t값)과 p-value를 계산하여 신뢰구간을 만족하는지 확인하고, 가설의 채택 여부를 결정한다. 평균검정에는 z-검정, t-검정, 분산분석으로 나뉜다. z-검정과 t-검정은 비교 집단이 2개 이하일 경우, 분산분석은 비교 집단이 3개 이상일 경우 사용한다. z-검정은 모분산을 알고 있을 때만 사용이 가능한 반면, t-검정은 모분산을 모를 때도 사용이 가능하다. t-검정의 종류 1. 일표본(단일 표본) t-검정( 1-sample T-test ) : 기존에 알려져 있는 평균 값이 맞는지를 확인하기 위한 검정방법 일반적으로 모집단의 평균이 특정 .. 2020. 5. 11.
04. 통계적 유의성과 p-value 통계적 유의성이란? 통계학자가 자신의 실험 결과가 우연히 일어난 것인지 or 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법이다. 결과가 우연히 벌어질 수 있는 변동성의 바깥에 존재한다면 통계적으로 유의하다고 말한다. 유의성 검정의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것이다. 유의성 검정을 판단하기 위해 p-value를 사용한다. p-value과 유의수준 α를 비교하여 가설에 대한 결론을 내린다. 용어 알아보기 p-value : 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률 유의수준 α : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 기회 결과가 능가해야하는 '비정상적인' 가능성의 임계 확률 제 1종 오류 : 우연에 의한 효과가 실제 효과라.. 2020. 5. 10.
01. 머신러닝 모델 평가 방법 머신러닝은 여러 개의 모델로 학습을 할 수 있습니다. 각각의 알고리즘이 특성, 차이가 있기 때문에 모델을 평가할 지표가 필요합니다. 지도 학습의 평가 1. 분류 문제 혼동 행렬(confusion matrix), 정확도(accuracy), 정밀도(precision), 재현율(recall), F값(F1-score), 곡선아래면적(AUC) 2. 회귀문제 평균제곱오차(MSE), 결정계수(coefficientg of determination) 분류 문제의 평가 방법 '미국 위스콘신 대학'의 '유방암 진단 데이터세트'를 로지스틱 회귀 모델로 머신러닝한 코드로 여러 평가 방법을 알아보겠습니다. code # 모듈 및 데이터 로드 from sklearn.datasets import load_breast_cancer fr.. 2020. 5. 10.
00. 머신러닝 개요 머신러닝의 유형 입력 데이터가 무엇인지에 따라 크게 세 가지의 유형으로 나뉜다. 1. 지도학습 2. 비지도학습 3. 강화학습 지도 학습( supervised learning ) 지도학습 : 문제의 정답을 컴퓨터에 입력해 모델을 학습시키는 것 독립변수와 종속변수를 모두 학습시킨 뒤, 새로운 독립변수 데이터가 들어왔을 때의 결과를 출력한다. 지도학습은 크게 분류(classification)와 회귀(regression)가 있다. 예를 들어보자. 분류 : 키, 체중의 값을 학습시켜 성별을 알아낸다. 회귀 : 성별, 키의 값을 학습시켜 신발사이즈를 알아낸다. 이 때, 성별은 남/여 라는 두 가지 값이고 신발사이즈는 연속적인 값이다. 비지도학습( unsupervised learning ) 비지도 학습은 정답을 나타.. 2020. 5. 10.
03. 재표본추출 재표본추출이란 ? 통계학에서 재표본추출의 목표는 랜덤한 변동성을 알아보기 위함이다. 재표본추출은 표본을 반복적으로 추출하는 것을 의미한다. 이를 적용하면 머신러닝 모델의 정확성을 평가하고, 향상시킬 수 있다. [ 재표본추출의 유형 ] 1 ) 부트스트랩 2 ) 순열 검정 재표본추출은 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정을 포함하는 반면, 부트스트랩은 항상 관측된 데이터로부터 복원 추출한다. 부트스트랩은 추정의 신뢰성을 평가하는데 사용된다. 1. 부트스트랩( bootstrap ) 어원 pull your self up by your bootstraps이라는 말에서 유래되었다. 외부의 도움 없이 어떤 과정을 수행해나갈 수 있음을 의미한다. 장점 1 ) 데이터셋의 분포가 고르지 않은 경우에.. 2020. 5. 9.
02. 가설 검정 가설 검정이란? 가설 검정, 유의성 검정은 전통적인 통계분석 방법이다. 목적은 관찰된 효과가 우연에 의한 것인지 여부를 알아내는 것이다. 이는 연구자가 랜덤하게 우연히 일어난 일에 속지 않도록 보호하기 위한 방법으로 개발되었다. 적절하게 설계된 A / B 검정에서는, A와 B 사이의 관찰된 차이가 1 ) 우연한 대상 선정 2 ) A와 B의 진정한 차이로 설명될 수 있도록 데이터를 수집한다. 가설 검정은 어떻게 이루어질까? 가, 나 그룹이 있을 때 실험에서 얻은 그룹간의 차이가 랜덤을 통해 얻을 수 있는 합리적인 수준과는 극단적으로 다르다는 증거를 보여야 한다. 그래서 두 가설을 세운다. 귀무가설 : 그룹들이 보이는 결과는 서로 동일하며, 그룹 간의 차이는 우연에 의한 결과이다. ( 이건 우연이야~ ) 대.. 2020. 5. 8.
01. A / B 검정 A / B 검정이란? A / B 검정은 두 개의 선택 중 어느 쪽이 다른 쪽 보다 우월함을 입증하기 위해서 실험군을 두 그룹으로 나누어 진행하는 실험이다. 이 때, 두 그룹은 다음의 용어를 사용한다. 대조군 : 어떤 처리도 하지 않은 대상들의 집단 처리군 : 어떤 처리에 노출된 대상들의집단 두 그룹은 무작위로 할당되어 실험을 위한 처리가 이루어진다. 즉, 실험 결과에서 나타난 차이점은 1 ) 다른 처리의 효과 2 ) 어떤 대상이 어떤 그룹에 배정될지에 대한 경우의 수에 의해 나타난다고 말할 수 있다. 또한, 결과를 나타내는 측정 지표에도 주의를 기울여야 한다. 측정 지표는 연속형 변수, 횟수를 나타내는 변수에 따라 결과가 다르게 표시될 수 있기 때문이다. A / B 검정은 유의미한가? 1 ) 널리 사용되.. 2020. 5. 8.
728x90
반응형