티스토리 뷰
Definition of Outliers
이상치란 정상치 값과 크게 차이가 나는 값을 말한다.
Types of Outliers
종속변수에 따라
univariate outliers(단변량) : 종속변수가 한 개
multivariate outliers(다변량) : 한 개 이상
환경에 따라 : point outliers, contextual outliers, collective outliers
+) univariable (단변수), multivariable (다변수) : 독립변수의 갯수에 따라
Most common causes of outliers on a data set
입력오류, 측정오류, 의도적 생성, 샘플링 에러 등
novelties : 에러로 인한 이상치가 아닌 자연적으로 생긴 이상치를 일컫는다.
Things to consider before outlier detection
univariate ? multivariate?
종속변수의 수 고려
parametric ? non-parametric?
데이터 분포를 고려하여 모수적 방법과 비모수적 방법 결정
Methods for outlier detection
Numeric Outlier
nonparametric / 1 dimensional /
IQR(InterQuartile Range, Q3-Q1, 사분위 범위) 를 이용하여 이상치 탐지
Z-score
parametric / 1 or low dimentional /
데이터의 가우시안분포가 가정되어야하므로 데이터 변환이 필요 ex)scaling
DBSCAN(Density Based Spatial Clustering of Applications with Noise)
nonparametric / multi dimentional /
밀도기반 클러스터링 기법으로 군집화에 기반을 두고 있기때문에 KNN과 유사하다.
KNN이 군집간 거리를 이용한다면 DBSCAN은 군집의 밀도를 이용한다. 특정 거리 내() 데이터가 최소 minPts 갯수 이상이면 하나의 군집으로 정의한다. Core point, Border point, Noise point(outlier) 등에 대한 자세한 내용은 여기 를 참조하자.
KNN처럼 클러스터의 수를 지정하지 않아도 되고 거리 기반이기 때문에 scaling이 필요하다.
Isolation Forest
nonparametric / multi dimentional
의사결정나무 기반으로 정상치 terminal node보다 이상치 node에 이르는 길이(path length)가 더 짧음을 이용한 기법이다. 트리기반이기 때문에 scaling은 필요없다.
그림과 함께 이해하기 쉽게 설명되어있으니 여기를 참조하자.
reference
'데이터 분석 > 통계' 카테고리의 다른 글
통계학습이란? 통계학습의 기초 (0) | 2019.05.05 |
---|---|
[ISLR]Ch06. PCA (0) | 2018.11.14 |