티스토리 뷰
An Introduction to Statistical Learining 책의 1,2장을 정리한 내용입니다.
Ch.01
1.1 통계학습의 개요
Supervised Learning(지도학습)
input 값으로 output 값을 예측
ex) 예측, 분류, 추론
- 예측 : 연속적, 양적인 output을 예측하는 것
- 분류 : 범주형, 질적인 output을 예측하는 것
Unsupervised Learning(비지도학습)
input값 없음. output값을 이용하여 input자료의 상관관계, 구조 파악
ex)군집화
Ch.02
2.1 통계학습이란?
통계학습이란 를 추정하는 일련의 기법들을 말한다. 은 와 독립적이며
2.1.1 f를 추정하는 이유?
함수 를 추정하는 두 가지 주된 이유는 예측과 추론이다.
- 예측 ex) 집값 예측
- 추론 ex) 어떤 요소가 집값에 가장 큰 영향을 미쳤는가?
여기서 반드시 명심해야할 점은 100퍼센트 완벽한 예측은 있을 수 없다는 것이다. 예측값 은 함수 로만 추정하기 때문에 오차항은 고려되지 않았고 따라서 항상 irreducible error가 존재한다. 이는 실제 아래 수식으로도 확인 가능하다.
예측에서는 집값, 즉 예측값만 알면되므로 를 블랙박스로 취급하나 추론에서는 데이터의 상관관계를 알아야하므로 를 블랙박스로 취급하지 않는다.
2.1.2 어떻게 f를 추정하는가?
Parametric Methods(모수적 방법)
함수의 형태나 모양을 가정하고 훈련데이터를 모델에 적합시키는 방법. 이렇게 모수적 형태를 가정하는 것은 를 추정하는 문제를 단순화시키는 장점이 있다. 그러나 추정 모델이 실제 형태와 맞지 않을 위험과 overfitting의 가능성이 있다.
Non-parametric Methods(비모수적 방법)
에대한 어떠한 가정도 하지 않으므로 더 넓은 범위의 형태에 정확하게 적합될 가능성이 있다. 그러나 작은 수의 파라미터 추정 문제로 축소하지 않으므로 아주 많은 관측치가 필요하다.
2.2 모델의 정확도 평가
2.2.1 적합의 품질 측정
예측모델을 만들었다고 치자. 그렇다면 그 모델을 어떻게 평가해야할까?
적합품질측정 지표 : MSE(Mean Squared Error)
훈련MSE에만 집중하면 과적합이 일어날 수 있다. 훈련MSE는 작지만 검정MSE가 큰 경우를 과적합이라고 하며 목적은 검정MSE를 낮추는 것임을 잊지말자. 그러나 보통은 사용가능한 검정 데이터가 없어 검정 MSE를 추정하기 힘들다. 그래서 훈련데이터를 사용하여 검정 MSE를 추정하는 교차검증(cross-validation)을 사용한다.
2.2.2 편향-분산 절충
기대검정 MSE
식을 살펴보면, 첫 번째는 분산으로 훈련데이터로 추정하는 f의 변동 정도를 나타내고 Bias는 편향 으로 실제모델을 근사화시킴으로써 발생되는 오차를 뜻한다. 모델의 유연성이 높아질수록 분산은 커지고 편향은 작아지는데 이 분산과 편향을 적절히 trade-off 시켜야한다.
2.2.3 분류 설정
예측모델에서 MSE를 사용했다면 분류모델은 오차율을 이용한다.
training error rate(훈련오차율) =
test error rate(검정오차율) =
: 를 사용하여 예측된 번째 관측치에 대한 클래스(label)
=0 이면 올바르게 분류. 따라서 위의 훈련오차율 식은 잘못 분류된 비율을 계산한다.
검정오차율은 Bayes Classifier(베이즈 분류기) 에 의해서 그 값이 최소가 되는데 이 때의 오차율을 베이즈 오차율이라고 하며 irreducible error와 유사하다. 이론상 질적 반응변수는 베이즈 분류기를 사용하여 예측하는 것이 가장 좋으나 실제 데이터에서는 주어진 에 대한 의 조건부분포를 모르므로 베이즈 분류기를 계산할 수는 없다. 그래서 이 조건부분포를 추정하여 가장 높은 추정확률을 가지는 클래스로 관측치를 분류하는데 대표적인 방법은 KNN이다.
'데이터 분석 > 통계' 카테고리의 다른 글
이상치 탐지 방법 (0) | 2019.05.11 |
---|---|
[ISLR]Ch06. PCA (0) | 2018.11.14 |