데이터사이언스스쿨

    20210428_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 PYTHON PROGRAMMING 1. 웹페이지의 구조 - 우리 선생님... 전공분야 나올 때마다 신나하시는 게 눈에 보인다... 귀여워... 2. 웹페이지 크롤링 - 오늘 예제는 네이버 증권. json 타입으로 request.get 사용 - 그동안 필요할때마다 얼렁뚱땅 만들었는데 훨씬 간결하고 쉽게 가는 법이 있었다. 역시 사람은 배워야해. - 과제 : 네이버 증권 환율 데이터 가져와서 상관계수 구하기 / 다음 금융에서 시도해보기 3. (크롤링을 위한 번외편) html 기초, atom REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 오늘 진행상황 dask 사용 성공 ! ..

    20210427_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 진행상황 raw data 수집 중 : 일부 데이터는 따로 기관에 요청을 해서 받아냈다. 이미지로 올려놨길래 csv가 있는지 문의하고 받았을 뿐인데 선생님이 자꾸 무섭다고 놀리신다 ㅠㅠ 저는 친절하게 전화했다구요 주요 관광지 선별 : raw data가 너무 커서 위도/경도 값을 이용해 주소로 변환하고 변환된 주소로 주요 관광지에 해당하는 정류장 ID들을 선별 중 - 다음주까지 EDA 진행해서 발표할 예정. 데이터 용량이 너무 커서 아무래도 dask를 사용해야 할 것 같아 간단히 복습했고, 지도 시각화를 직접하는 건 이번이 처음..

    20210423_그동안의회고

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 EDA PROJECT - 주제 : 인기 영양제/다이어트식품과 코로나19 영향 - Pandas / Matplotlib / Seaborn - Naver DataLab API / Naver Shopping scraping - What I did 판다스판다스판다스판다스판다스 보기 편한 + 가독성 높은 그래프로 시각화하기 네이버 데이터랩 API 써보기! (+검색량 상댓값은 네이버 광고 데이터로 실제 검색량 추정) - 네이버 쇼핑 검색 결과에 제품 타이틀이나 태그같은 요소가 얼마나 영향을 미치는지 좀더 분석해보고 싶은데, 시간이 부족하여 충분히 진행하지 못한 점이 아쉬워서 프로젝트 최종 정리하면서 추가해볼 예정이다. 잘 알려진 사실이기도 하지만, 단순히 제품에 등록해둔 ..

    20210401_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 28) 한글 자연어 처리 - 설치가 너무 오래 걸려서 난 colab으로 대체했다 - Konlpy, Wordcloud - Naive Bayes Classifier - 문장간 유사도 흠. 관심있는 분야라 개인적으로 좀더 공부해볼 예정. 공부하고 싶은 건 많고 시간은 항상 부족하구나 :(

    20210331, 0402_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 27, 29) - 3월 31일, 4월 2일은 모두 MySQL 과정으로, 이어지는 내용이었기에 한번에 쓴다(고 합리화한다) 데이터베이스 - MySQL 1. MySQL 설치와 Workbench 세팅 2. 데이터베이스의 개요 - 데이터베이스란 데이터를 통합하여 관리하는 데이터의 집합을 의미한다 2.1 DBMS - 데이터베이스 관리시스템 - SQL은 Structured Query Language : 관계형 데이터베이스 관리 시스템에서 데이터를 관리하기 위해 사용하는 "언어/문법" - 스키마는 테이블의 구조, 테이블 간 관계를 포함한 전체 구조 2.1.1 RDBMS - 데이터 테이블 사이에 키값으로 관계를 가지고 있는 데이터베이스 - 관계성으로 인해 저장/삭제..

    20210329-0330_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 25, 26) 머신러닝(DAY 25) 1. 앙상블 기법 - 앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합하여, 정확한 최종 예측을 기대하는 기법으로 - 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성이 높은 예측 값을 얻는 것을 목표로 한다. 1.1 Voting 1.2 Bagging 1.3 Hard Voting / Soft Voting - 하드보팅은 다수결 투표와 같이 각 classifier들의 결과를 종합하여 가장 많이 예측된 class를 선택 - 소프트보팅은 각 classifier들이 연산한 확률의 평균을 구하여 평균이 가장 높은 class를 선택 1.4 랜덤포레스트(Random Forest) - 앙상블 기법 중 Bagg..

    20210326_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 24) Python 1. Git 1.1 환경 설정 1.2 기본 사용법 2. AWS 2.1 AWS 서버 설정 팀 프로젝트 - EDA 프로젝트인 만큼 특별한 주제를 설정하지 않고 영양제 트렌드에 관해 두루두루 보면 어떨까 했는데, 이왕이면 가설을 두세개 정도 정해서 진행하면 좋겠다는 피드백을 받았다. 확실히, 가설이 없이 진행하다보면 데이터의 범위가 넓어지기만 하고 결론에 도달하기는 어려운 것 같다. 크롤링 프로젝트가 아니라는 것을 명심하자 :) - 영양제 데이터는 쉽게 생각했는데, 데이터 전처리에 한참 걸릴 것 같다. - EDA 프로젝트로 넘어오니 점점 더 흥미로워진다. 이번주는 스스로 매일 거의 10시까지 있었으니 회사에서보다 많은 시간을 학원에서 보..

    20210325_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 23) 수학 1. 변화율 1.1 평균변화율 1.2 순간 변화율 +) 코드 표현 2. 미분 2.1 다항함수의 미분 2.2 exponentional 함수, 자연로그의 미분 2.3 합성함수의 미분 +) 코드 표현 통계 1. Logistic Regression 1.1 정의 1.2 Cost Function 1.3 와인 데이터 실습 1.4 PIMA 인디언 당뇨병 데이터 예측 실습 2. 시계열 분석(일부) 2.1 정의 2.2 Fbprophet 2.3 블로그 웹 데이터 예측 실습

    20210324_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 22 - 스터디) 팀 프로젝트 1. 네이버 쇼핑 크롤러 제작 1.1 html 태그 이용 -> 장렬한 실패 / 아직 원인 모름 1.2 정규표현식 이용 1.2.1 텍스트로 해당 url의 script 내용 가져오기 1.2.2 정규표현식으로 필요한 내용 가져오기 (제품명 / 카테고리 / 등록일 / 브랜드 등) 1.2.3 원하는 형태로 가공 후 dataframe으로 만들기 부족했던 점 1. 코드로 협업하기 - 일단 현재 배운 범위 내에선 코드를 작성할 수 있지만, 뉴비이다보니 말그대로 동작만을 목표로 만들어버리고 그만큼 가독성이 떨어진다. - 첫 프로젝트인 만큼 코드 공유가 미숙하다. - 주석을 구구절절 달지 않아도 파트너가 편하게 이해할 수 있는 코드를 짜고..

    20210323_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 21) 크롤링 / 회귀분석 - 네이버 API 크롤러 실습 (urllib & BeautifulSoup) - 네이버 책 데이터를 이용한 기초 크롤링 및 회귀분석 팀 프로젝트 - 몇 시간 동안의 치열한(?) 논의 끝에 인기 영양제를 분석해보기로 주제 결정! 왜냐하면... 다들 영양제는 먹잖아요? - 그런데 내 크롤러는 왜 또 작동하지 않는가