Today I Learned

20210329-0330_TIL

하루 회고 

 

패스트캠퍼스 데이터 사이언스 스쿨 (DAY 25, 26)

머신러닝(DAY 25)

1. 앙상블 기법 

 - 앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합하여, 정확한 최종 예측을 기대하는 기법으로 

 - 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성이 높은 예측 값을 얻는 것을 목표로 한다. 

 

  1.1 Voting  

  1.2 Bagging 

  1.3 Hard Voting / Soft Voting 

 - 하드보팅은 다수결 투표와 같이  각 classifier들의 결과를 종합하여 가장 많이 예측된 class를 선택

 - 소프트보팅은 각 classifier들이 연산한 확률의 평균을 구하여 평균이 가장 높은 class를 선택

 

 1.4 랜덤포레스트(Random Forest)

 - 앙상블 기법 중 Bagging 방식을 적용한 대표적 방법 

 - 결정나무 + 소프트보팅  

 

    1.4.1 예제 : HAR data

    - 연산속도와 Accuracy 중 선택의 순간이 올 수도 있다 

 

 1.5 부스팅(boosting)

 - 앙상블 학습 기법 중 부스팅 방식은 여러 개의 분류기가 순차적으로 학습을 하면서, 앞에서 학습한 분류기를 거쳤을 때 예측이 틀린 데이터에 대해 다음 분류기가 가중치를 인가하여 학습을 진행하는 방식 

 - 예측 성능이 뛰어나며, Gradient Boost, XGBoost, LightGBM 등이 있다.

 - Bagging은 동시에 병렬적으로 진행되는 반면, Boosting은 순차적으로 진행된다는 점에서 차이를 보인다. 

 

   1.5.1 예제 : Wine data

   - 랜덤포레스트, 결정나무, AdaBoost, GradientBoost, LogisticRegression의 비교 

 

 

프로그래밍(DAY 26)

- 코딩보다도 어려운 것... 서버 세팅...

- TMUX... Shell script... AWS에서 jupyter notebook 설정... 이제 핸드폰으로도 코딩이 가능하다(?)

 


 

팀프로젝트는 현재 무한 전처리의 늪...! 데이터 분석의 70%는 전처리라는 교수님의 말씀이 문득 떠오른다. 기타건강보조식품으로 퉁쳐진 성분들이 너무 많은데 성분을 까보면 또 큰 카테고리여서, 그런 성분들도 카테고리를 지정해주느라 아직 본격 시각화로 돌입 못하고 전처리하는 중. 그리고 틀린 카테고리도 생각보다 많다. 가전제품인데 건강보조식품에 들어가있다든가... 이거 다 정리해서 분석하면 제약회사에서 사가도 될 것 같다 :) 사주세요  

'Today I Learned' 카테고리의 다른 글

20210401_TIL  (0) 2021.04.03
20210331, 0402_TIL  (0) 2021.04.03
20210326_TIL  (0) 2021.03.27
20210325_TIL  (0) 2021.03.27
20210324_TIL  (0) 2021.03.25