데이터전처리

    20210317_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 17) 데이터 전처리(Preprocessing) 1. 결측값 삭제 1.1 결측값이 존재하는 row를 삭제 1.2 결측값이 존재하는 column을 삭제 1.2.1 일정 개수의 기준을 설정하여, 비결측값이 기준을 넘지 못하면 삭제 ※ pandas.DataFrame.dropna의 thresh argument 2. 결측값 대체 2.1 수치형 데이터 - 평균값으로 결측값 대체 - 중앙값으로 결측값 대체 2.2 범주형 데이터 - 최빈값으로 결측값 대체 from sklearn.impute import SimpleImputer #직접 전처리하는 것도 가능하지만. SimpleImputer를 이용해보자 #결측값을 최빈값으로 대체할 때의 imputer imputer = ..