이번 포스팅의 주제는 범주형 변수 인코딩하기 + 훈련 후 예측 시 새로운 데이터가 들어왔을 때 어떻게 되는가 OneHotEncoder간단한 데이터를 만들어서 살펴보자. xxxxxxxxxximport pandas as pdtrain = pd.DataFrame([['a',1], ['b',1],['c',0]])컬럼0은 명목형이고 컬럼1은 순위형이다. 원핫인코더의 좋은 점은 Ordinal 변수도 모두 범주형으로 인식하여 처리한다는 점이다. xxxxxxxxxxfrom sklearn.preprocessing import OneHotEncoderohe = OneHotEncoder()pd.DataFrame(ohe.fit_transform(train).toarray())컬럼0이 a,b,c 3값이 때문에 [1,0,0]..
오늘은 SVM이 무엇인지에 대하여 살펴봅시다. 복잡한 수식은 이 글에서 다루지 않으며 간단하게 발전해온 과정과 알고리즘의 아이디어만 다룹니다. Maximal margin classifier (최대 마진 분류기) 훈련관측치를 2차원 공간위에 그렸다고 생각해봅시다. 위 그림은 2차원 공간에 있는 훈련관측치를 1차원의 초평면으로 이등분한 것입니다. 당연히 초평면을 기준으로 얼마나 훈련관측치를 잘 분류하느냐가 최대 관심사일 것입니다. 여기서 잠시 초평면에 관해 설명하겠습니다. p 차원 공간에서 초평면(hyperplane) 은 차원이 p-1 인 평평한 affine(아핀: 부분공간이 원점을 지날 필요가 없다) 부분공간입니다. 무슨 말이냐구요? 2차원에서의 초평면은 1차원 부분공간, 즉 선이고 3차원에서는 평평한 2..
내가 공부하려고 적는, 문자열이 있는 데이터프레임 처리하기 process (기존)데이터 필드 타입 살펴보기data frame : numeric(38개 열) + categorical (3개 열)label : categorical (5개의 값) df.shape (4898431, 42) null 값 보기 다행히 null값 없음 train_test_splitfrom sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(df.drop('label', 1), df['label']) convert string to intxfrom sklearn.preprocessing import LabelE..
from IPython.core.display import display, HTMLdisplay(HTML(""))정규표현식 (Regular Expressions)목적 : 데이터 전처리 과정에서 데이터를 정제, 일반 전처리복잡한 문자열을 처리할 때 사용응용 : 한글제거, 한자제거, 숫자제거, 알파벳제거, 공백제거 등등..전방탐색(긍정/부정) 수행코드 re.compile() 로 패턴객체 생성 방법1 p = re.compile(정규식) m = p.match( 문자 )방법2 m = re.match( 정규식, 문자 ) methodmethod설명returnmatch()문자열의 처음부터 정규식에 매치되는지 조사, 1개만찾음매치하면 match객체 매치하지않으면 None을 리턴search()문자열의 전체. 정규식에 매치..
파이프라인에 대해서 알아봅시다! 사용할 데이터셋은 다음과 같습니다. load_breast_cancer 사이킷런에서 제공하는 이진분류데이터셋으로 y는 0과 1입니다Classes2Samples per class212(M),357(B)Samples total569Dimensionality30Featuresreal, positive최솟값, 최댓값을 찾아 데이터의 스케일을 바꾸고 SVM을 훈련시켜 평가해보겠습니다from sklearn.pipeline import Pipeline, make_pipelinefrom sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.preproc..