Today I Learned

    20210317_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 17) 데이터 전처리(Preprocessing) 1. 결측값 삭제 1.1 결측값이 존재하는 row를 삭제 1.2 결측값이 존재하는 column을 삭제 1.2.1 일정 개수의 기준을 설정하여, 비결측값이 기준을 넘지 못하면 삭제 ※ pandas.DataFrame.dropna의 thresh argument 2. 결측값 대체 2.1 수치형 데이터 - 평균값으로 결측값 대체 - 중앙값으로 결측값 대체 2.2 범주형 데이터 - 최빈값으로 결측값 대체 from sklearn.impute import SimpleImputer #직접 전처리하는 것도 가능하지만. SimpleImputer를 이용해보자 #결측값을 최빈값으로 대체할 때의 imputer imputer = ..

    20210316_TIL

    이제라도 시작하는 하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 16) 머신러닝 기초 : Decision Tree, 회귀분석 [Python] Pandas, [수학] 고유값 분해 복습 1. 의사결정나무의 Split Criteria가 되는 정보 이득과 엔트로피 개념에 대해서도 배웠다. 하지만 정보 이득과 정보 획득에 대해서 둘 다 Information Gain의 번역어로 착각했다... 2. 손코딩으로 프로그래밍 퀴즈를 보면 내가 얼마나 주피터 노트북에 의존하고 있는지 깨닫게 된다. 주피터 노트북을 쓰면 빠르게 작성하고 실행해서 결과를 볼 수 있다보니, 생각하고 완성하려는 것이 아니라 일단 생각나는 대로 써보고 결과 혹은 에러를 보면서 고치고 있다. 문제는 그러다보니 아규먼트도 기억 못하고 코드도 개선..