DSS17

    Python / DASK(1)

    0. DASK ? - Dask는 가상의 데이터프레임. 병렬처리를 활용해 메모리를 효율적으로 사용할 수 있다. 왜 가상이냐면, 하드디스크에 있는 내용을 RAM에 올리는 것이 아니라 하드디스크 내의 데이터를 링크하는 것이기 때문이다. - 즉, DASK를 통해 메모리상에 전부 올릴 수 없는 대규모 파일을 활용가능. - Numpy나 scikit learn에서도 활용할 수 있도록 만들어졌는데, 일단 이번 프로젝트에서는 Pandas 로 사용하였다. - CPU 코어 수만큼 병렬 처리가 가능하다. m1이 깡패가 될 수 있는 지점이다. (제주도 관광객의 대중교통 이용과 관련하여 프로젝트를 진행하려는데 원본 파일이 무려 16기가에 달해 울면서 도입하였다. 귀여운 8기가램 구형 노트북도 16기가짜리 파일을 올릴 수 있게 만..

    20210428_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 PYTHON PROGRAMMING 1. 웹페이지의 구조 - 우리 선생님... 전공분야 나올 때마다 신나하시는 게 눈에 보인다... 귀여워... 2. 웹페이지 크롤링 - 오늘 예제는 네이버 증권. json 타입으로 request.get 사용 - 그동안 필요할때마다 얼렁뚱땅 만들었는데 훨씬 간결하고 쉽게 가는 법이 있었다. 역시 사람은 배워야해. - 과제 : 네이버 증권 환율 데이터 가져와서 상관계수 구하기 / 다음 금융에서 시도해보기 3. (크롤링을 위한 번외편) html 기초, atom REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 오늘 진행상황 dask 사용 성공 ! ..

    20210427_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 진행상황 raw data 수집 중 : 일부 데이터는 따로 기관에 요청을 해서 받아냈다. 이미지로 올려놨길래 csv가 있는지 문의하고 받았을 뿐인데 선생님이 자꾸 무섭다고 놀리신다 ㅠㅠ 저는 친절하게 전화했다구요 주요 관광지 선별 : raw data가 너무 커서 위도/경도 값을 이용해 주소로 변환하고 변환된 주소로 주요 관광지에 해당하는 정류장 ID들을 선별 중 - 다음주까지 EDA 진행해서 발표할 예정. 데이터 용량이 너무 커서 아무래도 dask를 사용해야 할 것 같아 간단히 복습했고, 지도 시각화를 직접하는 건 이번이 처음..

    20210401_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 28) 한글 자연어 처리 - 설치가 너무 오래 걸려서 난 colab으로 대체했다 - Konlpy, Wordcloud - Naive Bayes Classifier - 문장간 유사도 흠. 관심있는 분야라 개인적으로 좀더 공부해볼 예정. 공부하고 싶은 건 많고 시간은 항상 부족하구나 :(

    20210331, 0402_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 27, 29) - 3월 31일, 4월 2일은 모두 MySQL 과정으로, 이어지는 내용이었기에 한번에 쓴다(고 합리화한다) 데이터베이스 - MySQL 1. MySQL 설치와 Workbench 세팅 2. 데이터베이스의 개요 - 데이터베이스란 데이터를 통합하여 관리하는 데이터의 집합을 의미한다 2.1 DBMS - 데이터베이스 관리시스템 - SQL은 Structured Query Language : 관계형 데이터베이스 관리 시스템에서 데이터를 관리하기 위해 사용하는 "언어/문법" - 스키마는 테이블의 구조, 테이블 간 관계를 포함한 전체 구조 2.1.1 RDBMS - 데이터 테이블 사이에 키값으로 관계를 가지고 있는 데이터베이스 - 관계성으로 인해 저장/삭제..

    20210324_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 22 - 스터디) 팀 프로젝트 1. 네이버 쇼핑 크롤러 제작 1.1 html 태그 이용 -> 장렬한 실패 / 아직 원인 모름 1.2 정규표현식 이용 1.2.1 텍스트로 해당 url의 script 내용 가져오기 1.2.2 정규표현식으로 필요한 내용 가져오기 (제품명 / 카테고리 / 등록일 / 브랜드 등) 1.2.3 원하는 형태로 가공 후 dataframe으로 만들기 부족했던 점 1. 코드로 협업하기 - 일단 현재 배운 범위 내에선 코드를 작성할 수 있지만, 뉴비이다보니 말그대로 동작만을 목표로 만들어버리고 그만큼 가독성이 떨어진다. - 첫 프로젝트인 만큼 코드 공유가 미숙하다. - 주석을 구구절절 달지 않아도 파트너가 편하게 이해할 수 있는 코드를 짜고..