파이썬다스크

    Python / DASK(1)

    0. DASK ? - Dask는 가상의 데이터프레임. 병렬처리를 활용해 메모리를 효율적으로 사용할 수 있다. 왜 가상이냐면, 하드디스크에 있는 내용을 RAM에 올리는 것이 아니라 하드디스크 내의 데이터를 링크하는 것이기 때문이다. - 즉, DASK를 통해 메모리상에 전부 올릴 수 없는 대규모 파일을 활용가능. - Numpy나 scikit learn에서도 활용할 수 있도록 만들어졌는데, 일단 이번 프로젝트에서는 Pandas 로 사용하였다. - CPU 코어 수만큼 병렬 처리가 가능하다. m1이 깡패가 될 수 있는 지점이다. (제주도 관광객의 대중교통 이용과 관련하여 프로젝트를 진행하려는데 원본 파일이 무려 16기가에 달해 울면서 도입하였다. 귀여운 8기가램 구형 노트북도 16기가짜리 파일을 올릴 수 있게 만..