EDA

    20210329-0330_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 25, 26) 머신러닝(DAY 25) 1. 앙상블 기법 - 앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합하여, 정확한 최종 예측을 기대하는 기법으로 - 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성이 높은 예측 값을 얻는 것을 목표로 한다. 1.1 Voting 1.2 Bagging 1.3 Hard Voting / Soft Voting - 하드보팅은 다수결 투표와 같이 각 classifier들의 결과를 종합하여 가장 많이 예측된 class를 선택 - 소프트보팅은 각 classifier들이 연산한 확률의 평균을 구하여 평균이 가장 높은 class를 선택 1.4 랜덤포레스트(Random Forest) - 앙상블 기법 중 Bagg..

    EDA_제주지역 공간 데이터 분석

    0. 개요 연습용으로 Dacon에서 흥미로운 데이터를 하나 주워왔다. 2020년 5월~8월 동안 제주지역에서 발생한 결제금액 및 재난지원금 사용 금액에 관한 데이터다. 사람들은 과연 어느 업종에서 재난지원금을 많이 썼는지 알아보도록 하자. 공간정보 탐색적 데이터 분석 경진대회 출처 : DACON - Data Science Competition dacon.io 주요 column은 다음과 같다. FranClass : 규모(영세/중소/중소1/중소2/일반) Type : 업종명 TotalSpent : 총사용금액 DisSpent : 재난지원금 사용금액 NumOfSpent : 총 이용건수 NumOfDisSpent : 총 재난지원금 이용건수 1. 불러오기 일단 5월 데이터만 불러와보았다. info()를 이용해 대략적인..