python

    Python / DASK(2) - use case : 불러오기, 인덱싱

    0. DASK로 불러올 때 ValueError가 발생한다면 지난 글에서도 썼지만, 기본적으로 DASK는 Pandas에서 csv를 불러오는 방식과 동일하다. #읽어오기 example = dd.read_csv("example.csv") 그런데 이게 가끔 안될 때가 있다. 정확히 말하자면, .read_csv()로 다스크 데이터프레임을 만드는 것까지는 가능하지만, 이 데이터를 불러오거나 처리하려거나 하면 ValueError가 발생한다. 에러 메시지를 읽어보면 DASK가 읽어온 데이터 타입과 실제 데이터프레임의 데이터 타입이 다를 때 이 에러가 발생하는 것 같다. (왜 다르냐고 묻고 싶지만...) 다행히 다스크는 독스트링(docstring)이나 에러 메시지가 굉장히 친절하고 상세하다. 아래 에러 메시지에서도 이렇..

    EDA_제주지역 공간 데이터 분석

    0. 개요 연습용으로 Dacon에서 흥미로운 데이터를 하나 주워왔다. 2020년 5월~8월 동안 제주지역에서 발생한 결제금액 및 재난지원금 사용 금액에 관한 데이터다. 사람들은 과연 어느 업종에서 재난지원금을 많이 썼는지 알아보도록 하자. 공간정보 탐색적 데이터 분석 경진대회 출처 : DACON - Data Science Competition dacon.io 주요 column은 다음과 같다. FranClass : 규모(영세/중소/중소1/중소2/일반) Type : 업종명 TotalSpent : 총사용금액 DisSpent : 재난지원금 사용금액 NumOfSpent : 총 이용건수 NumOfDisSpent : 총 재난지원금 이용건수 1. 불러오기 일단 5월 데이터만 불러와보았다. info()를 이용해 대략적인..