todayIlearned

    20210319_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 19) 데이터 시각화! 1. matplotlib - 기본적인 꺾은선 그래프 그리기 - 스타일 설정 - Bar chart / Pie chart / Histogram / Scatter plot 2. seaborn - seaborn.set() 을 이용해 그래프 스타일 적용 가능 - pairplot / lmplot / heatmap 3. folium - javascript에서 사용하는 지리정보 라이브러리를 python으로 변환 - 주별 미국 실업률 데이터로 지도 그리기 실습 - 서울시 공공자전거 대여정보 데이터로 지도 그리기 실습 개인 작업 - 제주도 공공데이터 전처리 중인데 산업 분류하는 것부터 생각보다 오래 걸리고 있다. 목표한 대로 주말 내에 완성할 수..

    20210318_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 18) 수학 기초 1. 다양한 타입의 함수 / 벡터 2. 함수 그리기 - matplotlib을 이용한 함수 표현 와인 데이터 실습 1. 와인 데이터(UCI machine learning database) 확인 및 전처리 - plotly를 이용한 데이터 탐색 - MinMaxScaler / StandardScaler 적용(의사결정나무에서는 의미를 가지지 않는 전처리지만, 학습을 위해 실습) - 전처리 시 주의사항 : 특징 데이터의 변형으로 만들어 낸 column을 라벨 데이터로 사용하지 말 것 UCI Machine Learning Repository: Wine Data Set Data Set Characteristics: Multivariate Numbe..

    20210317_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 17) 데이터 전처리(Preprocessing) 1. 결측값 삭제 1.1 결측값이 존재하는 row를 삭제 1.2 결측값이 존재하는 column을 삭제 1.2.1 일정 개수의 기준을 설정하여, 비결측값이 기준을 넘지 못하면 삭제 ※ pandas.DataFrame.dropna의 thresh argument 2. 결측값 대체 2.1 수치형 데이터 - 평균값으로 결측값 대체 - 중앙값으로 결측값 대체 2.2 범주형 데이터 - 최빈값으로 결측값 대체 from sklearn.impute import SimpleImputer #직접 전처리하는 것도 가능하지만. SimpleImputer를 이용해보자 #결측값을 최빈값으로 대체할 때의 imputer imputer = ..