하루 회고
패스트캠퍼스 데이터 사이언스 스쿨 (DAY 18)
수학 기초
1. 다양한 타입의 함수 / 벡터
2. 함수 그리기
- matplotlib을 이용한 함수 표현
와인 데이터 실습
1. 와인 데이터(UCI machine learning database) 확인 및 전처리
- plotly를 이용한 데이터 탐색
- MinMaxScaler / StandardScaler 적용(의사결정나무에서는 의미를 가지지 않는 전처리지만, 학습을 위해 실습)
- 전처리 시 주의사항 : 특징 데이터의 변형으로 만들어 낸 column을 라벨 데이터로 사용하지 말 것
UCI Machine Learning Repository: Wine Data Set
Data Set Characteristics: Multivariate Number of Instances: 178 Area: Physical Attribute Characteristics: Integer, Real Number of Attributes: 13 Date Donated 1991-07-01 Associated Tasks: Classification Missing Values? No Number of Web Hits: 1623138 Sou
archive.ics.uci.edu
2. 의사결정나무 모델 적용(DecisionTreeClassifier)
- fit / transform / fit_transform의 차이에 유의할 것
3. 교차검증
- K-fold cross validation / Stratified K-fold cross validation
- 모델의 평가, 특히 과적합 여부 확인을 위해 사용한다. 모델의 성능을 향상시키는 목적이 아니라는 것을 기억하자.
- 내일 진행되는 커리어 클래스 과제도 완료. 저번에 좀 써뒀던 건데 파일을 날려먹어서 다시 써야 했다.
- 와인 데이터를 보니 와인이 마시고 싶다.
- 제주도 재난지원금 데이터 분석 시작. 결측값도 없이 깔끔해서 일단 groupby()와 seaborn에 좀더 익숙해지는 것을 목표로 EDA를 진행해본다. 서울시에서도 같은 타입으로 구할 수 있으면 비교해도 재밌을 것 같다.
'Today I Learned' 카테고리의 다른 글
20210322_TIL (0) | 2021.03.24 |
---|---|
20210321_TIL (0) | 2021.03.22 |
20210319_TIL (0) | 2021.03.20 |
20210317_TIL (0) | 2021.03.17 |
20210316_TIL (0) | 2021.03.17 |