dss

    20210423_그동안의회고

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 EDA PROJECT - 주제 : 인기 영양제/다이어트식품과 코로나19 영향 - Pandas / Matplotlib / Seaborn - Naver DataLab API / Naver Shopping scraping - What I did 판다스판다스판다스판다스판다스 보기 편한 + 가독성 높은 그래프로 시각화하기 네이버 데이터랩 API 써보기! (+검색량 상댓값은 네이버 광고 데이터로 실제 검색량 추정) - 네이버 쇼핑 검색 결과에 제품 타이틀이나 태그같은 요소가 얼마나 영향을 미치는지 좀더 분석해보고 싶은데, 시간이 부족하여 충분히 진행하지 못한 점이 아쉬워서 프로젝트 최종 정리하면서 추가해볼 예정이다. 잘 알려진 사실이기도 하지만, 단순히 제품에 등록해둔 ..

    20210331, 0402_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 27, 29) - 3월 31일, 4월 2일은 모두 MySQL 과정으로, 이어지는 내용이었기에 한번에 쓴다(고 합리화한다) 데이터베이스 - MySQL 1. MySQL 설치와 Workbench 세팅 2. 데이터베이스의 개요 - 데이터베이스란 데이터를 통합하여 관리하는 데이터의 집합을 의미한다 2.1 DBMS - 데이터베이스 관리시스템 - SQL은 Structured Query Language : 관계형 데이터베이스 관리 시스템에서 데이터를 관리하기 위해 사용하는 "언어/문법" - 스키마는 테이블의 구조, 테이블 간 관계를 포함한 전체 구조 2.1.1 RDBMS - 데이터 테이블 사이에 키값으로 관계를 가지고 있는 데이터베이스 - 관계성으로 인해 저장/삭제..

    20210329-0330_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 25, 26) 머신러닝(DAY 25) 1. 앙상블 기법 - 앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합하여, 정확한 최종 예측을 기대하는 기법으로 - 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성이 높은 예측 값을 얻는 것을 목표로 한다. 1.1 Voting 1.2 Bagging 1.3 Hard Voting / Soft Voting - 하드보팅은 다수결 투표와 같이 각 classifier들의 결과를 종합하여 가장 많이 예측된 class를 선택 - 소프트보팅은 각 classifier들이 연산한 확률의 평균을 구하여 평균이 가장 높은 class를 선택 1.4 랜덤포레스트(Random Forest) - 앙상블 기법 중 Bagg..

    20210326_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 24) Python 1. Git 1.1 환경 설정 1.2 기본 사용법 2. AWS 2.1 AWS 서버 설정 팀 프로젝트 - EDA 프로젝트인 만큼 특별한 주제를 설정하지 않고 영양제 트렌드에 관해 두루두루 보면 어떨까 했는데, 이왕이면 가설을 두세개 정도 정해서 진행하면 좋겠다는 피드백을 받았다. 확실히, 가설이 없이 진행하다보면 데이터의 범위가 넓어지기만 하고 결론에 도달하기는 어려운 것 같다. 크롤링 프로젝트가 아니라는 것을 명심하자 :) - 영양제 데이터는 쉽게 생각했는데, 데이터 전처리에 한참 걸릴 것 같다. - EDA 프로젝트로 넘어오니 점점 더 흥미로워진다. 이번주는 스스로 매일 거의 10시까지 있었으니 회사에서보다 많은 시간을 학원에서 보..

    20210325_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 23) 수학 1. 변화율 1.1 평균변화율 1.2 순간 변화율 +) 코드 표현 2. 미분 2.1 다항함수의 미분 2.2 exponentional 함수, 자연로그의 미분 2.3 합성함수의 미분 +) 코드 표현 통계 1. Logistic Regression 1.1 정의 1.2 Cost Function 1.3 와인 데이터 실습 1.4 PIMA 인디언 당뇨병 데이터 예측 실습 2. 시계열 분석(일부) 2.1 정의 2.2 Fbprophet 2.3 블로그 웹 데이터 예측 실습

    20210324_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 22 - 스터디) 팀 프로젝트 1. 네이버 쇼핑 크롤러 제작 1.1 html 태그 이용 -> 장렬한 실패 / 아직 원인 모름 1.2 정규표현식 이용 1.2.1 텍스트로 해당 url의 script 내용 가져오기 1.2.2 정규표현식으로 필요한 내용 가져오기 (제품명 / 카테고리 / 등록일 / 브랜드 등) 1.2.3 원하는 형태로 가공 후 dataframe으로 만들기 부족했던 점 1. 코드로 협업하기 - 일단 현재 배운 범위 내에선 코드를 작성할 수 있지만, 뉴비이다보니 말그대로 동작만을 목표로 만들어버리고 그만큼 가독성이 떨어진다. - 첫 프로젝트인 만큼 코드 공유가 미숙하다. - 주석을 구구절절 달지 않아도 파트너가 편하게 이해할 수 있는 코드를 짜고..