분류 전체보기

    Mathematics for Machine Learning - Week 1 / Day 1

    Mathematics for Machine Learning Companion webpage to the book “Mathematics for Machine Learning”. Copyright 2020 by Marc Peter Deisenroth, A. Aldo Faisal, and Cheng Soon Ong. Published by Cambridge University Press. mml-book.github.io 독서모임 시그마즈 목표 : 종강 전 Mathematics for Machine Learning 1회독 day 1. 5월 26일 수요일 : ~p.19 [p.11] There are three concepts that are at the core of machine learning: data,..

    Python / DASK(2) - use case : 불러오기, 인덱싱

    0. DASK로 불러올 때 ValueError가 발생한다면 지난 글에서도 썼지만, 기본적으로 DASK는 Pandas에서 csv를 불러오는 방식과 동일하다. #읽어오기 example = dd.read_csv("example.csv") 그런데 이게 가끔 안될 때가 있다. 정확히 말하자면, .read_csv()로 다스크 데이터프레임을 만드는 것까지는 가능하지만, 이 데이터를 불러오거나 처리하려거나 하면 ValueError가 발생한다. 에러 메시지를 읽어보면 DASK가 읽어온 데이터 타입과 실제 데이터프레임의 데이터 타입이 다를 때 이 에러가 발생하는 것 같다. (왜 다르냐고 묻고 싶지만...) 다행히 다스크는 독스트링(docstring)이나 에러 메시지가 굉장히 친절하고 상세하다. 아래 에러 메시지에서도 이렇..

    Python / DASK(1)

    0. DASK ? - Dask는 가상의 데이터프레임. 병렬처리를 활용해 메모리를 효율적으로 사용할 수 있다. 왜 가상이냐면, 하드디스크에 있는 내용을 RAM에 올리는 것이 아니라 하드디스크 내의 데이터를 링크하는 것이기 때문이다. - 즉, DASK를 통해 메모리상에 전부 올릴 수 없는 대규모 파일을 활용가능. - Numpy나 scikit learn에서도 활용할 수 있도록 만들어졌는데, 일단 이번 프로젝트에서는 Pandas 로 사용하였다. - CPU 코어 수만큼 병렬 처리가 가능하다. m1이 깡패가 될 수 있는 지점이다. (제주도 관광객의 대중교통 이용과 관련하여 프로젝트를 진행하려는데 원본 파일이 무려 16기가에 달해 울면서 도입하였다. 귀여운 8기가램 구형 노트북도 16기가짜리 파일을 올릴 수 있게 만..

    20210502_TIL

    O/X IMAGE CLASSIFIER 0. 과제 - 직접 O, X를 그려서 이미지를 모으고(클래스메이트들과 품앗이했다) - 이미지로 직접 dataset을 만들어서(이 부분을 직접 한다는 게 중요!) - keras로 딥러닝까지 사용해보자 1. 현재까지 진행상황 - 데이터셋을 만드는 것까진 성공했다(github.com/lsjsj92/keras_basic : 이수진님의 깃헙을 많이 참고했다. 감사합니다.) - 그런데 accuracy가 엉망진창이어서 optimizer를 이리저리 바꿔보았으나 유의미한 변화는 없었다 - 혹시 데이터셋의 여백때문인가?(설마) 1.1 약간의 Troubleshooting - 예측이 틀린 이미지들을 찾아보니 진짜로, 이미지에서 가장자리 여백이 많은 이미지들만 잔뜩 나왔다. - 문제는 모든..

    20210428_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 PYTHON PROGRAMMING 1. 웹페이지의 구조 - 우리 선생님... 전공분야 나올 때마다 신나하시는 게 눈에 보인다... 귀여워... 2. 웹페이지 크롤링 - 오늘 예제는 네이버 증권. json 타입으로 request.get 사용 - 그동안 필요할때마다 얼렁뚱땅 만들었는데 훨씬 간결하고 쉽게 가는 법이 있었다. 역시 사람은 배워야해. - 과제 : 네이버 증권 환율 데이터 가져와서 상관계수 구하기 / 다음 금융에서 시도해보기 3. (크롤링을 위한 번외편) html 기초, atom REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 오늘 진행상황 dask 사용 성공 ! ..

    20210427_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 진행상황 raw data 수집 중 : 일부 데이터는 따로 기관에 요청을 해서 받아냈다. 이미지로 올려놨길래 csv가 있는지 문의하고 받았을 뿐인데 선생님이 자꾸 무섭다고 놀리신다 ㅠㅠ 저는 친절하게 전화했다구요 주요 관광지 선별 : raw data가 너무 커서 위도/경도 값을 이용해 주소로 변환하고 변환된 주소로 주요 관광지에 해당하는 정류장 ID들을 선별 중 - 다음주까지 EDA 진행해서 발표할 예정. 데이터 용량이 너무 커서 아무래도 dask를 사용해야 할 것 같아 간단히 복습했고, 지도 시각화를 직접하는 건 이번이 처음..

    Python / 제주 데이터허브 API를 이용해 일일 버스이용자 데이터 가져오기

    *첫 작성일 20210428 *미세수정 20210521 0. 제주 데이터허브 제주데이터허브 www.jejudatahub.net 데이터분석에 관심이 있다면 공공데이터포털이나 서울 열린데이터 광장을 둘러본 경험도 한번쯤은 있을 것이다. 이런 사이트들의 제주도 버전이 바로 제주데이터허브다. 제주에서 IT 산업 육성에 굉장히 신경쓰고 있다던데, 그래서인지 제주데이터허브도 각종 데이터를 제공하고 있다. 회원가입만으로 사용이 가능하다. 1. 데이터 구성 www.jejudatahub.net/data/view/data/613 제주데이터허브 www.jejudatahub.net 이 데이터의 API를 이용해보려고 한다. 일일 정류소별 버스 이용자 데이터로, 이 데이터에서 받아볼 수 있는 column들은 다음과 같다. 1) ..

    20210423_그동안의회고

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 EDA PROJECT - 주제 : 인기 영양제/다이어트식품과 코로나19 영향 - Pandas / Matplotlib / Seaborn - Naver DataLab API / Naver Shopping scraping - What I did 판다스판다스판다스판다스판다스 보기 편한 + 가독성 높은 그래프로 시각화하기 네이버 데이터랩 API 써보기! (+검색량 상댓값은 네이버 광고 데이터로 실제 검색량 추정) - 네이버 쇼핑 검색 결과에 제품 타이틀이나 태그같은 요소가 얼마나 영향을 미치는지 좀더 분석해보고 싶은데, 시간이 부족하여 충분히 진행하지 못한 점이 아쉬워서 프로젝트 최종 정리하면서 추가해볼 예정이다. 잘 알려진 사실이기도 하지만, 단순히 제품에 등록해둔 ..

    20210401_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 28) 한글 자연어 처리 - 설치가 너무 오래 걸려서 난 colab으로 대체했다 - Konlpy, Wordcloud - Naive Bayes Classifier - 문장간 유사도 흠. 관심있는 분야라 개인적으로 좀더 공부해볼 예정. 공부하고 싶은 건 많고 시간은 항상 부족하구나 :(

    20210331, 0402_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 27, 29) - 3월 31일, 4월 2일은 모두 MySQL 과정으로, 이어지는 내용이었기에 한번에 쓴다(고 합리화한다) 데이터베이스 - MySQL 1. MySQL 설치와 Workbench 세팅 2. 데이터베이스의 개요 - 데이터베이스란 데이터를 통합하여 관리하는 데이터의 집합을 의미한다 2.1 DBMS - 데이터베이스 관리시스템 - SQL은 Structured Query Language : 관계형 데이터베이스 관리 시스템에서 데이터를 관리하기 위해 사용하는 "언어/문법" - 스키마는 테이블의 구조, 테이블 간 관계를 포함한 전체 구조 2.1.1 RDBMS - 데이터 테이블 사이에 키값으로 관계를 가지고 있는 데이터베이스 - 관계성으로 인해 저장/삭제..