티스토리 뷰

Ch.02

An Introduction to Statistical Learining 책의 1,2장을 정리한 내용입니다.

 

Ch.01

1.1 통계학습의 개요

  • Supervised Learning(지도학습)

    input 값으로 output 값을 예측

    ex) 예측, 분류, 추론

    • 예측 : 연속적, 양적인 output을 예측하는 것
    • 분류 : 범주형, 질적인 output을 예측하는 것
  • Unsupervised Learning(비지도학습)

    input값 없음. output값을 이용하여 input자료의 상관관계, 구조 파악

    ex)군집화

 

Ch.02

2.1 통계학습이란?

통계학습이란 를 추정하는 일련의 기법들을 말한다. 와 독립적이며

 

 

2.1.1 f를 추정하는 이유?

함수 를 추정하는 두 가지 주된 이유는 예측과 추론이다.

  1. 예측 ex) 집값 예측
  2. 추론 ex) 어떤 요소가 집값에 가장 큰 영향을 미쳤는가?

여기서 반드시 명심해야할 점은 100퍼센트 완벽한 예측은 있을 수 없다는 것이다. 예측값 은 함수 로만 추정하기 때문에 오차항은 고려되지 않았고 따라서 항상 irreducible error가 존재한다. 이는 실제 아래 수식으로도 확인 가능하다.

 

 

예측에서는 집값, 즉 예측값만 알면되므로 를 블랙박스로 취급하나 추론에서는 데이터의 상관관계를 알아야하므로 를 블랙박스로 취급하지 않는다.

 

 

2.1.2 어떻게 f를 추정하는가?

  • Parametric Methods(모수적 방법)

    함수의 형태나 모양을 가정하고 훈련데이터를 모델에 적합시키는 방법. 이렇게 모수적 형태를 가정하는 것은 를 추정하는 문제를 단순화시키는 장점이 있다. 그러나 추정 모델이 실제 형태와 맞지 않을 위험과 overfitting의 가능성이 있다.

  • Non-parametric Methods(비모수적 방법)

    에대한 어떠한 가정도 하지 않으므로 더 넓은 범위의 형태에 정확하게 적합될 가능성이 있다. 그러나 작은 수의 파라미터 추정 문제로 축소하지 않으므로 아주 많은 관측치가 필요하다.

 

 

2.2 모델의 정확도 평가

2.2.1 적합의 품질 측정

예측모델을 만들었다고 치자. 그렇다면 그 모델을 어떻게 평가해야할까?

적합품질측정 지표 : MSE(Mean Squared Error)

훈련MSE에만 집중하면 과적합이 일어날 수 있다. 훈련MSE는 작지만 검정MSE가 큰 경우를 과적합이라고 하며 목적은 검정MSE를 낮추는 것임을 잊지말자. 그러나 보통은 사용가능한 검정 데이터가 없어 검정 MSE를 추정하기 힘들다. 그래서 훈련데이터를 사용하여 검정 MSE를 추정하는 교차검증(cross-validation)을 사용한다.

 

 

2.2.2 편향-분산 절충

기대검정 MSE

식을 살펴보면, 첫 번째는 분산으로 훈련데이터로 추정하는 f의 변동 정도를 나타내고 Bias는 편향 으로 실제모델을 근사화시킴으로써 발생되는 오차를 뜻한다. 모델의 유연성이 높아질수록 분산은 커지고 편향은 작아지는데 이 분산과 편향을 적절히 trade-off 시켜야한다.

 

2.2.3 분류 설정

예측모델에서 MSE를 사용했다면 분류모델은 오차율을 이용한다.

training error rate(훈련오차율) =

test error rate(검정오차율) =

: 를 사용하여 예측된 번째 관측치에 대한 클래스(label)

=0 이면 올바르게 분류. 따라서 위의 훈련오차율 식은 잘못 분류된 비율을 계산한다.

 

 

검정오차율은 Bayes Classifier(베이즈 분류기) 에 의해서 그 값이 최소가 되는데 이 때의 오차율을 베이즈 오차율이라고 하며 irreducible error와 유사하다. 이론상 질적 반응변수는 베이즈 분류기를 사용하여 예측하는 것이 가장 좋으나 실제 데이터에서는 주어진 에 대한 의 조건부분포를 모르므로 베이즈 분류기를 계산할 수는 없다. 그래서 이 조건부분포를 추정하여 가장 높은 추정확률을 가지는 클래스로 관측치를 분류하는데 대표적인 방법은 KNN이다.

 

'데이터 분석 > 통계' 카테고리의 다른 글

이상치 탐지 방법  (0) 2019.05.11
[ISLR]Ch06. PCA  (0) 2018.11.14
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함