Today I Learned

    20210331, 0402_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 27, 29) - 3월 31일, 4월 2일은 모두 MySQL 과정으로, 이어지는 내용이었기에 한번에 쓴다(고 합리화한다) 데이터베이스 - MySQL 1. MySQL 설치와 Workbench 세팅 2. 데이터베이스의 개요 - 데이터베이스란 데이터를 통합하여 관리하는 데이터의 집합을 의미한다 2.1 DBMS - 데이터베이스 관리시스템 - SQL은 Structured Query Language : 관계형 데이터베이스 관리 시스템에서 데이터를 관리하기 위해 사용하는 "언어/문법" - 스키마는 테이블의 구조, 테이블 간 관계를 포함한 전체 구조 2.1.1 RDBMS - 데이터 테이블 사이에 키값으로 관계를 가지고 있는 데이터베이스 - 관계성으로 인해 저장/삭제..

    20210329-0330_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 25, 26) 머신러닝(DAY 25) 1. 앙상블 기법 - 앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합하여, 정확한 최종 예측을 기대하는 기법으로 - 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성이 높은 예측 값을 얻는 것을 목표로 한다. 1.1 Voting 1.2 Bagging 1.3 Hard Voting / Soft Voting - 하드보팅은 다수결 투표와 같이 각 classifier들의 결과를 종합하여 가장 많이 예측된 class를 선택 - 소프트보팅은 각 classifier들이 연산한 확률의 평균을 구하여 평균이 가장 높은 class를 선택 1.4 랜덤포레스트(Random Forest) - 앙상블 기법 중 Bagg..

    20210326_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 24) Python 1. Git 1.1 환경 설정 1.2 기본 사용법 2. AWS 2.1 AWS 서버 설정 팀 프로젝트 - EDA 프로젝트인 만큼 특별한 주제를 설정하지 않고 영양제 트렌드에 관해 두루두루 보면 어떨까 했는데, 이왕이면 가설을 두세개 정도 정해서 진행하면 좋겠다는 피드백을 받았다. 확실히, 가설이 없이 진행하다보면 데이터의 범위가 넓어지기만 하고 결론에 도달하기는 어려운 것 같다. 크롤링 프로젝트가 아니라는 것을 명심하자 :) - 영양제 데이터는 쉽게 생각했는데, 데이터 전처리에 한참 걸릴 것 같다. - EDA 프로젝트로 넘어오니 점점 더 흥미로워진다. 이번주는 스스로 매일 거의 10시까지 있었으니 회사에서보다 많은 시간을 학원에서 보..

    20210325_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 23) 수학 1. 변화율 1.1 평균변화율 1.2 순간 변화율 +) 코드 표현 2. 미분 2.1 다항함수의 미분 2.2 exponentional 함수, 자연로그의 미분 2.3 합성함수의 미분 +) 코드 표현 통계 1. Logistic Regression 1.1 정의 1.2 Cost Function 1.3 와인 데이터 실습 1.4 PIMA 인디언 당뇨병 데이터 예측 실습 2. 시계열 분석(일부) 2.1 정의 2.2 Fbprophet 2.3 블로그 웹 데이터 예측 실습

    20210324_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 22 - 스터디) 팀 프로젝트 1. 네이버 쇼핑 크롤러 제작 1.1 html 태그 이용 -> 장렬한 실패 / 아직 원인 모름 1.2 정규표현식 이용 1.2.1 텍스트로 해당 url의 script 내용 가져오기 1.2.2 정규표현식으로 필요한 내용 가져오기 (제품명 / 카테고리 / 등록일 / 브랜드 등) 1.2.3 원하는 형태로 가공 후 dataframe으로 만들기 부족했던 점 1. 코드로 협업하기 - 일단 현재 배운 범위 내에선 코드를 작성할 수 있지만, 뉴비이다보니 말그대로 동작만을 목표로 만들어버리고 그만큼 가독성이 떨어진다. - 첫 프로젝트인 만큼 코드 공유가 미숙하다. - 주석을 구구절절 달지 않아도 파트너가 편하게 이해할 수 있는 코드를 짜고..

    20210323_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 21) 크롤링 / 회귀분석 - 네이버 API 크롤러 실습 (urllib & BeautifulSoup) - 네이버 책 데이터를 이용한 기초 크롤링 및 회귀분석 팀 프로젝트 - 몇 시간 동안의 치열한(?) 논의 끝에 인기 영양제를 분석해보기로 주제 결정! 왜냐하면... 다들 영양제는 먹잖아요? - 그런데 내 크롤러는 왜 또 작동하지 않는가

    20210322_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 20) 수학 기초 1. 벡터 - 함수 기초 - 함수 심화(시그모이드, 다변수 벡터함수 등) 2. 행렬 - 단위행렬 - 전치행렬 - 행렬의 성질 - 역행렬, 고유값, 고유벡터 데이터 전처리 1. Scaler - MinMaxScaler - StandardScaler - RobustScaler - 와인 데이터를 활용한 스케일링 및 이진 분류 실습 모델 평가 1. 이진 분류 모델의 평가 - Accuracy - Precision - Recall - Fall-Out 2. ROC / AUC 개인 작업 - 공공 데이터 처리하다말고 본격적인 팀 EDA 프로젝트 돌입 전 전처리 연습 및 주제 선정을 위해 잠시 다른 데이터 만져보는 중. 이것도 재밌는 결과가 나오면 올려..

    20210321_TIL

    하루 회고 개인 작업 - 제주지역 공간 데이터 전처리 / 시각화 연습 - seaborn, matplotlib EDA_제주지역 공간 데이터 분석 0. 개요 연습용으로 Dacon에서 재밌어 보이는 데이터를 하나 가져왔다. 2020년 5월~8월 동안 제주지역에서 발생한 결제금액 및 재난지원금 사용 금액에 관한 데이터다. 사람들은 과연 어느 업종에서 data-ducky.tistory.com - seaborn에 annotation을 하려면 matplotlib을 섞어야하나보다...... 생각보다 고려할 게 많다. - EDA 팀플 주제로는 사회(대중교통, 상권 등) / 페이먼트, 쇼핑 / 게임 이렇게 세 가지를 적어냈다. 모바일 게임 인기순위/트렌드 변화를 주제로 해보고 싶다. 현재로서는 선생님의 도움이 없이는 어렵..

    20210319_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 19) 데이터 시각화! 1. matplotlib - 기본적인 꺾은선 그래프 그리기 - 스타일 설정 - Bar chart / Pie chart / Histogram / Scatter plot 2. seaborn - seaborn.set() 을 이용해 그래프 스타일 적용 가능 - pairplot / lmplot / heatmap 3. folium - javascript에서 사용하는 지리정보 라이브러리를 python으로 변환 - 주별 미국 실업률 데이터로 지도 그리기 실습 - 서울시 공공자전거 대여정보 데이터로 지도 그리기 실습 개인 작업 - 제주도 공공데이터 전처리 중인데 산업 분류하는 것부터 생각보다 오래 걸리고 있다. 목표한 대로 주말 내에 완성할 수..

    20210318_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 18) 수학 기초 1. 다양한 타입의 함수 / 벡터 2. 함수 그리기 - matplotlib을 이용한 함수 표현 와인 데이터 실습 1. 와인 데이터(UCI machine learning database) 확인 및 전처리 - plotly를 이용한 데이터 탐색 - MinMaxScaler / StandardScaler 적용(의사결정나무에서는 의미를 가지지 않는 전처리지만, 학습을 위해 실습) - 전처리 시 주의사항 : 특징 데이터의 변형으로 만들어 낸 column을 라벨 데이터로 사용하지 말 것 UCI Machine Learning Repository: Wine Data Set Data Set Characteristics: Multivariate Numbe..