Til

    [TIL][KAGGLE 30 days of ML] day 2

    20210804 TIL # Day 2 assignment - Kaggle에서 제공하는 Python course의 Lesson 1을 보고 문제풀기 - 변수 지정, 사칙연산자에 대한 내용이라... 영어 공부하는 셈치고 진행했다 - 아무래도 Python course는 몰아서 읽고 푸는 게 좋을 것 같다. 아직까진 TIL이라고 하기에도 민망하다 ㅎㅎㅎ - 그나저나 노트북이 잘 되어 있어서 깜짝 놀랐다 :0 - 내 기준엔 구글 Colab보다 깔끔하기도 하고, 교육에 최적화된 느낌? - 설명도 최대한 심플하게 적으려고 한 게 보이고, 분량이나 문제도 부담이 없어 보여서 캐글이 많은 신경을 쓰고 있다는 게 느껴졌다. - 영어 독해에 부담이 없고 파이썬 입문을 고민하고 있는 분들이라면 추천할 것 같다. 30 Days ..

    [TIL][KAGGLE 30 days of ML] day 1

    20210803 TIL # Kaggle 30 days of ML - 캐글에서 8월 3일부터 진행하는 1개월짜리 데이터사이언스 / 머신러닝 입문자용 자기주도 학습 course - 매일마다 assignment를 내주고, 그에 맞춰 과제를 수행하는 방식으로 매일 약 1시간 정도의 학습 분량을 준다고 한다 - 후반부에는 30 days of ML 참여자들을 위한 캐글 컴페티션에 참여할 수 있다! - 1일 ~ 15일은 ML 공부, 15일 ~ 30일은 컴페티션으로 이루어져 있(는 것 같)다. # Day 1 assignment - 첫날이기 때문에 일종의 오리엔테이션을 겸하는 과제뿐이었다 - 과제 1. Novice -> Contributor로 레벨업? 승급?하기 - 과제 2. 30 days of ML 디스코드 참여 & ..

    20210502_TIL

    O/X IMAGE CLASSIFIER 0. 과제 - 직접 O, X를 그려서 이미지를 모으고(클래스메이트들과 품앗이했다) - 이미지로 직접 dataset을 만들어서(이 부분을 직접 한다는 게 중요!) - keras로 딥러닝까지 사용해보자 1. 현재까지 진행상황 - 데이터셋을 만드는 것까진 성공했다(github.com/lsjsj92/keras_basic : 이수진님의 깃헙을 많이 참고했다. 감사합니다.) - 그런데 accuracy가 엉망진창이어서 optimizer를 이리저리 바꿔보았으나 유의미한 변화는 없었다 - 혹시 데이터셋의 여백때문인가?(설마) 1.1 약간의 Troubleshooting - 예측이 틀린 이미지들을 찾아보니 진짜로, 이미지에서 가장자리 여백이 많은 이미지들만 잔뜩 나왔다. - 문제는 모든..

    20210428_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 PYTHON PROGRAMMING 1. 웹페이지의 구조 - 우리 선생님... 전공분야 나올 때마다 신나하시는 게 눈에 보인다... 귀여워... 2. 웹페이지 크롤링 - 오늘 예제는 네이버 증권. json 타입으로 request.get 사용 - 그동안 필요할때마다 얼렁뚱땅 만들었는데 훨씬 간결하고 쉽게 가는 법이 있었다. 역시 사람은 배워야해. - 과제 : 네이버 증권 환율 데이터 가져와서 상관계수 구하기 / 다음 금융에서 시도해보기 3. (크롤링을 위한 번외편) html 기초, atom REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 오늘 진행상황 dask 사용 성공 ! ..

    20210427_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 진행상황 raw data 수집 중 : 일부 데이터는 따로 기관에 요청을 해서 받아냈다. 이미지로 올려놨길래 csv가 있는지 문의하고 받았을 뿐인데 선생님이 자꾸 무섭다고 놀리신다 ㅠㅠ 저는 친절하게 전화했다구요 주요 관광지 선별 : raw data가 너무 커서 위도/경도 값을 이용해 주소로 변환하고 변환된 주소로 주요 관광지에 해당하는 정류장 ID들을 선별 중 - 다음주까지 EDA 진행해서 발표할 예정. 데이터 용량이 너무 커서 아무래도 dask를 사용해야 할 것 같아 간단히 복습했고, 지도 시각화를 직접하는 건 이번이 처음..

    20210401_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 28) 한글 자연어 처리 - 설치가 너무 오래 걸려서 난 colab으로 대체했다 - Konlpy, Wordcloud - Naive Bayes Classifier - 문장간 유사도 흠. 관심있는 분야라 개인적으로 좀더 공부해볼 예정. 공부하고 싶은 건 많고 시간은 항상 부족하구나 :(

    20210323_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 21) 크롤링 / 회귀분석 - 네이버 API 크롤러 실습 (urllib & BeautifulSoup) - 네이버 책 데이터를 이용한 기초 크롤링 및 회귀분석 팀 프로젝트 - 몇 시간 동안의 치열한(?) 논의 끝에 인기 영양제를 분석해보기로 주제 결정! 왜냐하면... 다들 영양제는 먹잖아요? - 그런데 내 크롤러는 왜 또 작동하지 않는가

    20210322_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 20) 수학 기초 1. 벡터 - 함수 기초 - 함수 심화(시그모이드, 다변수 벡터함수 등) 2. 행렬 - 단위행렬 - 전치행렬 - 행렬의 성질 - 역행렬, 고유값, 고유벡터 데이터 전처리 1. Scaler - MinMaxScaler - StandardScaler - RobustScaler - 와인 데이터를 활용한 스케일링 및 이진 분류 실습 모델 평가 1. 이진 분류 모델의 평가 - Accuracy - Precision - Recall - Fall-Out 2. ROC / AUC 개인 작업 - 공공 데이터 처리하다말고 본격적인 팀 EDA 프로젝트 돌입 전 전처리 연습 및 주제 선정을 위해 잠시 다른 데이터 만져보는 중. 이것도 재밌는 결과가 나오면 올려..

    20210321_TIL

    하루 회고 개인 작업 - 제주지역 공간 데이터 전처리 / 시각화 연습 - seaborn, matplotlib EDA_제주지역 공간 데이터 분석 0. 개요 연습용으로 Dacon에서 재밌어 보이는 데이터를 하나 가져왔다. 2020년 5월~8월 동안 제주지역에서 발생한 결제금액 및 재난지원금 사용 금액에 관한 데이터다. 사람들은 과연 어느 업종에서 data-ducky.tistory.com - seaborn에 annotation을 하려면 matplotlib을 섞어야하나보다...... 생각보다 고려할 게 많다. - EDA 팀플 주제로는 사회(대중교통, 상권 등) / 페이먼트, 쇼핑 / 게임 이렇게 세 가지를 적어냈다. 모바일 게임 인기순위/트렌드 변화를 주제로 해보고 싶다. 현재로서는 선생님의 도움이 없이는 어렵..

    20210319_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 19) 데이터 시각화! 1. matplotlib - 기본적인 꺾은선 그래프 그리기 - 스타일 설정 - Bar chart / Pie chart / Histogram / Scatter plot 2. seaborn - seaborn.set() 을 이용해 그래프 스타일 적용 가능 - pairplot / lmplot / heatmap 3. folium - javascript에서 사용하는 지리정보 라이브러리를 python으로 변환 - 주별 미국 실업률 데이터로 지도 그리기 실습 - 서울시 공공자전거 대여정보 데이터로 지도 그리기 실습 개인 작업 - 제주도 공공데이터 전처리 중인데 산업 분류하는 것부터 생각보다 오래 걸리고 있다. 목표한 대로 주말 내에 완성할 수..