티스토리 뷰
아래는 ISLR의 내용을 간단히 정리한 것입니다. 피드백은 언제나 환영합니다.
차원축소의 두가지 방법
- PC(Principal Components) 주성분
- PLS(Partial Least Squares) 부분최소제곱
차원축소 : 고차원의 설명변수를 변환(transform)하여 저차원으로 만드는 방법
PCR(Principal Components Regression)
회귀를 위한 차원축소 기법을 살펴보겠습니다.
절차
- 표준화
- 주성분 벡터 생성
주성분은 설명변수 x의 선형결합으로 이루어진다. (이때, M < p )
- 최소제곱 모델 적합
차원축소의 아이디어는 기존의 최소제곱회귀식 $$\hat{y} = \beta_0+\beta_1x_1 + \cdots + \beta_px_p$$ 은 p+1 개의 회귀계수를 구해야하지만 PCA 모델은 M+1 개의 회귀계수만 귀하면 된다는 것이다.
주성분
Z_1 첫 번째 주성분 : 데이터의 변동을 가장 잘 설명하는 방향, 가장 큰 분산을 갖는 변수의 선형결합
첫번째 주성분이 위와 같다고 한다면 \phi_j+\phi_i = 1 이어야합니다. 그렇지 않으면 계수를 제어할 수 없으니까요.
Z_2 두 번째 주성분은 첫 번째 주성분과 무상관이며 다음으로 가장 큰 분산을 갖는 변수의 선형결합입니다. 여기서 무상관이라는 의미는 직교한다는 의미입니다.
PCA는 변수선택방법이 아니다
차원을 축소하여 주성분으로 모델을 만들기때문에 변수선택방법이라고 생각할 수 있으나 주성분이 모든 설명변수들의 선형결합이므로 결국 모든 변수를 쓴 셈이 됩니다. 따라서 변수선택 방법이 아닙니다.
PLS(Particial Least Squares)
PCR에서 주성분을 생성 시 y 반응변수는 쓰이지 않기에 비지도방식으로 볼 수 있습니다. 즉, PCR은 설명변수들을 가장 잘 설명하는 방향이 반응변수를 예측하기에 좋은 방향이라는 보장이 없습니다! 반응변수를 넣어서 지도방식으로 하는 기법이 PLS입니다.
고차원에서 무엇이 문제인가?
고차원이란 p>>n 설명변수가 관측치보다 많은 것을 말합니다. 고차원은 최소제곱을 사용할 수 없는 문제점이 있습니다. 단순선형회귀 모델이 매우 유연하여 과적합되기 때문이죠. 따라서 고차원에서 회귀를 하고자 할때는 전진선택방법, 능형회귀, lasso, PCA의 방법을 써야합니다.
차원의 저주
차원이 높아지면 (= 설명변수가 많아짐) 반응변수와 관련있는 신호변수가 아닌 관련없는 잡음변수가 추가될 수 있습니다. 이는 모델이 더 나빠지게 하며 그 결과 검정셋 오차가 증가할 것이고 이를 차원의 저주라 부릅니다.
고차원에서의 결과 해석
PCA의 주성분이 설명변수의 선형결합이듯이 고차원에서는 어느 변수들이 실제로 결과 예측이 관련이 있는지 결코 정확하게 알 수 없습니다. 즉, 회귀에서 사용할 가장 좋은 계수들을 절대 식별할 수 없음을 의미합니다.
고차원 모델의 적합은 p-value나 R^2 값으로 알 수 없으며 교차검증 오차를 통하여 판단하는 것이 바람직합니다.
'데이터 분석 > 통계' 카테고리의 다른 글
이상치 탐지 방법 (0) | 2019.05.11 |
---|---|
통계학습이란? 통계학습의 기초 (0) | 2019.05.05 |