하루 회고
패스트캠퍼스 데이터 사이언스 스쿨 (DAY 25, 26)
머신러닝(DAY 25)
1. 앙상블 기법
- 앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합하여, 정확한 최종 예측을 기대하는 기법으로
- 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성이 높은 예측 값을 얻는 것을 목표로 한다.
1.1 Voting
1.2 Bagging
1.3 Hard Voting / Soft Voting
- 하드보팅은 다수결 투표와 같이 각 classifier들의 결과를 종합하여 가장 많이 예측된 class를 선택
- 소프트보팅은 각 classifier들이 연산한 확률의 평균을 구하여 평균이 가장 높은 class를 선택
1.4 랜덤포레스트(Random Forest)
- 앙상블 기법 중 Bagging 방식을 적용한 대표적 방법
- 결정나무 + 소프트보팅
1.4.1 예제 : HAR data
- 연산속도와 Accuracy 중 선택의 순간이 올 수도 있다
1.5 부스팅(boosting)
- 앙상블 학습 기법 중 부스팅 방식은 여러 개의 분류기가 순차적으로 학습을 하면서, 앞에서 학습한 분류기를 거쳤을 때 예측이 틀린 데이터에 대해 다음 분류기가 가중치를 인가하여 학습을 진행하는 방식
- 예측 성능이 뛰어나며, Gradient Boost, XGBoost, LightGBM 등이 있다.
- Bagging은 동시에 병렬적으로 진행되는 반면, Boosting은 순차적으로 진행된다는 점에서 차이를 보인다.
1.5.1 예제 : Wine data
- 랜덤포레스트, 결정나무, AdaBoost, GradientBoost, LogisticRegression의 비교
프로그래밍(DAY 26)
- 코딩보다도 어려운 것... 서버 세팅...
- TMUX... Shell script... AWS에서 jupyter notebook 설정... 이제 핸드폰으로도 코딩이 가능하다(?)
팀프로젝트는 현재 무한 전처리의 늪...! 데이터 분석의 70%는 전처리라는 교수님의 말씀이 문득 떠오른다. 기타건강보조식품으로 퉁쳐진 성분들이 너무 많은데 성분을 까보면 또 큰 카테고리여서, 그런 성분들도 카테고리를 지정해주느라 아직 본격 시각화로 돌입 못하고 전처리하는 중. 그리고 틀린 카테고리도 생각보다 많다. 가전제품인데 건강보조식품에 들어가있다든가... 이거 다 정리해서 분석하면 제약회사에서 사가도 될 것 같다 :) 사주세요
'Today I Learned' 카테고리의 다른 글
20210401_TIL (0) | 2021.04.03 |
---|---|
20210331, 0402_TIL (0) | 2021.04.03 |
20210326_TIL (0) | 2021.03.27 |
20210325_TIL (0) | 2021.03.27 |
20210324_TIL (0) | 2021.03.25 |