티스토리 뷰

데이터 분석/통계

[ISLR]Ch06. PCA

Hhhh8 2018. 11. 14. 19:03
차원축소의 두가지 방법

아래는 ISLR의 내용을 간단히 정리한 것입니다. 피드백은 언제나 환영합니다.

 

차원축소의 두가지 방법

  • PC(Principal Components) 주성분
  • PLS(Partial Least Squares) 부분최소제곱

차원축소 : 고차원의 설명변수를 변환(transform)하여 저차원으로 만드는 방법

 

 

PCR(Principal Components Regression)

회귀를 위한 차원축소 기법을 살펴보겠습니다.

 

절차

  1. 표준화
  2. 주성분 벡터 생성

​ 주성분은 설명변수 x의 선형결합으로 이루어진다. (이때, M < p )

  1. 최소제곱 모델 적합

 

차원축소의 아이디어는 기존의 최소제곱회귀식 $$\hat{y} = \beta_0+\beta_1x_1 + \cdots + \beta_px_p$$ 은 p+1 개의 회귀계수를 구해야하지만 PCA 모델은 M+1 개의 회귀계수만 귀하면 된다는 것이다.

 

 

 

 

주성분

Z_1 첫 번째 주성분 : 데이터의 변동을 가장 잘 설명하는 방향, 가장 큰 분산을 갖는 변수의 선형결합

첫번째 주성분이 위와 같다고 한다면 \phi_j+\phi_i = 1 이어야합니다. 그렇지 않으면 계수를 제어할 수 없으니까요.

Z_2 두 번째 주성분은 첫 번째 주성분과 무상관이며 다음으로 가장 큰 분산을 갖는 변수의 선형결합입니다. 여기서 무상관이라는 의미는 직교한다는 의미입니다.

 

 

 

PCA는 변수선택방법이 아니다

차원을 축소하여 주성분으로 모델을 만들기때문에 변수선택방법이라고 생각할 수 있으나 주성분이 모든 설명변수들의 선형결합이므로 결국 모든 변수를 쓴 셈이 됩니다. 따라서 변수선택 방법이 아닙니다.

 

 

 

PLS(Particial Least Squares)

PCR에서 주성분을 생성 시 y 반응변수는 쓰이지 않기에 비지도방식으로 볼 수 있습니다. 즉, PCR은 설명변수들을 가장 잘 설명하는 방향이 반응변수를 예측하기에 좋은 방향이라는 보장이 없습니다! 반응변수를 넣어서 지도방식으로 하는 기법이 PLS입니다.

 

 

 

고차원에서 무엇이 문제인가?

고차원이란 p>>n 설명변수가 관측치보다 많은 것을 말합니다. 고차원은 최소제곱을 사용할 수 없는 문제점이 있습니다. 단순선형회귀 모델이 매우 유연하여 과적합되기 때문이죠. 따라서 고차원에서 회귀를 하고자 할때는 전진선택방법, 능형회귀, lasso, PCA의 방법을 써야합니다.

 

 

 

 

차원의 저주

차원이 높아지면 (= 설명변수가 많아짐) 반응변수와 관련있는 신호변수가 아닌 관련없는 잡음변수가 추가될 수 있습니다. 이는 모델이 더 나빠지게 하며 그 결과 검정셋 오차가 증가할 것이고 이를 차원의 저주라 부릅니다.

 

 

 

 

고차원에서의 결과 해석

PCA의 주성분이 설명변수의 선형결합이듯이 고차원에서는 어느 변수들이 실제로 결과 예측이 관련이 있는지 결코 정확하게 알 수 없습니다. 즉, 회귀에서 사용할 가장 좋은 계수들을 절대 식별할 수 없음을 의미합니다.

 

고차원 모델의 적합은 p-value나 R^2 값으로 알 수 없으며 교차검증 오차를 통하여 판단하는 것이 바람직합니다.

'데이터 분석 > 통계' 카테고리의 다른 글

이상치 탐지 방법  (0) 2019.05.11
통계학습이란? 통계학습의 기초  (0) 2019.05.05
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함