데이터사이언스스쿨

    20210322_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 20) 수학 기초 1. 벡터 - 함수 기초 - 함수 심화(시그모이드, 다변수 벡터함수 등) 2. 행렬 - 단위행렬 - 전치행렬 - 행렬의 성질 - 역행렬, 고유값, 고유벡터 데이터 전처리 1. Scaler - MinMaxScaler - StandardScaler - RobustScaler - 와인 데이터를 활용한 스케일링 및 이진 분류 실습 모델 평가 1. 이진 분류 모델의 평가 - Accuracy - Precision - Recall - Fall-Out 2. ROC / AUC 개인 작업 - 공공 데이터 처리하다말고 본격적인 팀 EDA 프로젝트 돌입 전 전처리 연습 및 주제 선정을 위해 잠시 다른 데이터 만져보는 중. 이것도 재밌는 결과가 나오면 올려..

    20210319_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 19) 데이터 시각화! 1. matplotlib - 기본적인 꺾은선 그래프 그리기 - 스타일 설정 - Bar chart / Pie chart / Histogram / Scatter plot 2. seaborn - seaborn.set() 을 이용해 그래프 스타일 적용 가능 - pairplot / lmplot / heatmap 3. folium - javascript에서 사용하는 지리정보 라이브러리를 python으로 변환 - 주별 미국 실업률 데이터로 지도 그리기 실습 - 서울시 공공자전거 대여정보 데이터로 지도 그리기 실습 개인 작업 - 제주도 공공데이터 전처리 중인데 산업 분류하는 것부터 생각보다 오래 걸리고 있다. 목표한 대로 주말 내에 완성할 수..

    20210318_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 18) 수학 기초 1. 다양한 타입의 함수 / 벡터 2. 함수 그리기 - matplotlib을 이용한 함수 표현 와인 데이터 실습 1. 와인 데이터(UCI machine learning database) 확인 및 전처리 - plotly를 이용한 데이터 탐색 - MinMaxScaler / StandardScaler 적용(의사결정나무에서는 의미를 가지지 않는 전처리지만, 학습을 위해 실습) - 전처리 시 주의사항 : 특징 데이터의 변형으로 만들어 낸 column을 라벨 데이터로 사용하지 말 것 UCI Machine Learning Repository: Wine Data Set Data Set Characteristics: Multivariate Numbe..

    20210317_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 17) 데이터 전처리(Preprocessing) 1. 결측값 삭제 1.1 결측값이 존재하는 row를 삭제 1.2 결측값이 존재하는 column을 삭제 1.2.1 일정 개수의 기준을 설정하여, 비결측값이 기준을 넘지 못하면 삭제 ※ pandas.DataFrame.dropna의 thresh argument 2. 결측값 대체 2.1 수치형 데이터 - 평균값으로 결측값 대체 - 중앙값으로 결측값 대체 2.2 범주형 데이터 - 최빈값으로 결측값 대체 from sklearn.impute import SimpleImputer #직접 전처리하는 것도 가능하지만. SimpleImputer를 이용해보자 #결측값을 최빈값으로 대체할 때의 imputer imputer = ..

    20210316_TIL

    이제라도 시작하는 하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 16) 머신러닝 기초 : Decision Tree, 회귀분석 [Python] Pandas, [수학] 고유값 분해 복습 1. 의사결정나무의 Split Criteria가 되는 정보 이득과 엔트로피 개념에 대해서도 배웠다. 하지만 정보 이득과 정보 획득에 대해서 둘 다 Information Gain의 번역어로 착각했다... 2. 손코딩으로 프로그래밍 퀴즈를 보면 내가 얼마나 주피터 노트북에 의존하고 있는지 깨닫게 된다. 주피터 노트북을 쓰면 빠르게 작성하고 실행해서 결과를 볼 수 있다보니, 생각하고 완성하려는 것이 아니라 일단 생각나는 대로 써보고 결과 혹은 에러를 보면서 고치고 있다. 문제는 그러다보니 아규먼트도 기억 못하고 코드도 개선..