Today I Learned

    근황토크 / 구글 머신러닝 부트캠프

    근황 Kaggle 30 days of ML을 당차게 신청하였으나 무려 Google ML Bootcamp에 되어버렸다.... 오마이 코린이에게 정말이지 과분한 기회여서, 개인 공부는 Google ML Bootcamp에 올인하기로 결정하였다 (사실 분량도 올인해야할 분량이긴 하다) 이런 멋진 프로그램이 있다는 것을 지원마감 불과 6시간 전에 알고 부랴부랴 파이썬 퀴즈풀고 지원서 써서 냈다. 나를 구글 부트캠프로 이끌어 준 인스타그램 광고 알고리즘에게 치얼쓰. 패캠에서는 머신러닝/딥러닝을 어떻게 써야할지, 프로젝트 진행에 중점을 두었다면 이번 부트캠프를 통해서는 앤드류 응 교수님의 강의를 바탕으로 내재된 레이어는 어떻게 쌓아야하는지, 어떤 로직으로 이러한 모델들이 나오는 건지를 차근차근 배우고 있다. 먼저 적..

    [TIL][KAGGLE 30 days of ML] day 2

    20210804 TIL # Day 2 assignment - Kaggle에서 제공하는 Python course의 Lesson 1을 보고 문제풀기 - 변수 지정, 사칙연산자에 대한 내용이라... 영어 공부하는 셈치고 진행했다 - 아무래도 Python course는 몰아서 읽고 푸는 게 좋을 것 같다. 아직까진 TIL이라고 하기에도 민망하다 ㅎㅎㅎ - 그나저나 노트북이 잘 되어 있어서 깜짝 놀랐다 :0 - 내 기준엔 구글 Colab보다 깔끔하기도 하고, 교육에 최적화된 느낌? - 설명도 최대한 심플하게 적으려고 한 게 보이고, 분량이나 문제도 부담이 없어 보여서 캐글이 많은 신경을 쓰고 있다는 게 느껴졌다. - 영어 독해에 부담이 없고 파이썬 입문을 고민하고 있는 분들이라면 추천할 것 같다. 30 Days ..

    [TIL][KAGGLE 30 days of ML] day 1

    20210803 TIL # Kaggle 30 days of ML - 캐글에서 8월 3일부터 진행하는 1개월짜리 데이터사이언스 / 머신러닝 입문자용 자기주도 학습 course - 매일마다 assignment를 내주고, 그에 맞춰 과제를 수행하는 방식으로 매일 약 1시간 정도의 학습 분량을 준다고 한다 - 후반부에는 30 days of ML 참여자들을 위한 캐글 컴페티션에 참여할 수 있다! - 1일 ~ 15일은 ML 공부, 15일 ~ 30일은 컴페티션으로 이루어져 있(는 것 같)다. # Day 1 assignment - 첫날이기 때문에 일종의 오리엔테이션을 겸하는 과제뿐이었다 - 과제 1. Novice -> Contributor로 레벨업? 승급?하기 - 과제 2. 30 days of ML 디스코드 참여 & ..

    [Note] 실험이 주도하는 제품 개발

    OUTPUT이 아닌 OUTCOME # The Effects of Hierachy on learning and Performance in Online Experimentation (원문) - 시니어들은 제품 실험에 어떤 영향을 미치는가? - 직급이 올라갈 수록 실험이 성공할 가능성(가정이 검증될 가능성)은 증가하지만, 실험 결과를 통한 효과, 향상폭은 더 적다는 결론 - 유저의 반응을 이끌어내는 적합한 형태는 무엇인지를 한번 더 생각하자(+A/B test) ➔ 결론적으로, 실험이란 결국 유저/고객/소비자에게서 시작하고, 평가되어야 할 것이다. # 실험이 적합한 문제와 적합하지 않은 문제가 있다. 제품 pivot이 필요한 경우, 신규 타겟 페르소나가 필요한 경우에는 실험이 적합하지 않다. # 실험의 제약 상..

    근황신고

    0. Bootstrap - 프로토타입 / MVP를 위하여 (얼레벌레) 웹페이지 만들기 도전... - 수업시간엔 html, css 그리고 bootstrap 기초만 배웠는데 직접 해보려니까 말 그대로 맨땅에 헤딩이다... - 생각중인 프로토타입은 3페이지 정도고 검색값에 따라서 결과만 바꿔주면 되는데 이제 겨우 1페이지 했다 - Flask는 언제 하지 *This cover has been designed using resources from Freepik.com

    20210502_TIL

    O/X IMAGE CLASSIFIER 0. 과제 - 직접 O, X를 그려서 이미지를 모으고(클래스메이트들과 품앗이했다) - 이미지로 직접 dataset을 만들어서(이 부분을 직접 한다는 게 중요!) - keras로 딥러닝까지 사용해보자 1. 현재까지 진행상황 - 데이터셋을 만드는 것까진 성공했다(github.com/lsjsj92/keras_basic : 이수진님의 깃헙을 많이 참고했다. 감사합니다.) - 그런데 accuracy가 엉망진창이어서 optimizer를 이리저리 바꿔보았으나 유의미한 변화는 없었다 - 혹시 데이터셋의 여백때문인가?(설마) 1.1 약간의 Troubleshooting - 예측이 틀린 이미지들을 찾아보니 진짜로, 이미지에서 가장자리 여백이 많은 이미지들만 잔뜩 나왔다. - 문제는 모든..

    20210428_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 PYTHON PROGRAMMING 1. 웹페이지의 구조 - 우리 선생님... 전공분야 나올 때마다 신나하시는 게 눈에 보인다... 귀여워... 2. 웹페이지 크롤링 - 오늘 예제는 네이버 증권. json 타입으로 request.get 사용 - 그동안 필요할때마다 얼렁뚱땅 만들었는데 훨씬 간결하고 쉽게 가는 법이 있었다. 역시 사람은 배워야해. - 과제 : 네이버 증권 환율 데이터 가져와서 상관계수 구하기 / 다음 금융에서 시도해보기 3. (크롤링을 위한 번외편) html 기초, atom REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 오늘 진행상황 dask 사용 성공 ! ..

    20210427_TIL

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 REGRESSION PROJECT - 제주 입도객 수와 기타 변수들을 활용하여 주요 관광지별 대중교통 이용객 수를 예측해보고자 한다. - 진행상황 raw data 수집 중 : 일부 데이터는 따로 기관에 요청을 해서 받아냈다. 이미지로 올려놨길래 csv가 있는지 문의하고 받았을 뿐인데 선생님이 자꾸 무섭다고 놀리신다 ㅠㅠ 저는 친절하게 전화했다구요 주요 관광지 선별 : raw data가 너무 커서 위도/경도 값을 이용해 주소로 변환하고 변환된 주소로 주요 관광지에 해당하는 정류장 ID들을 선별 중 - 다음주까지 EDA 진행해서 발표할 예정. 데이터 용량이 너무 커서 아무래도 dask를 사용해야 할 것 같아 간단히 복습했고, 지도 시각화를 직접하는 건 이번이 처음..

    20210423_그동안의회고

    패스트캠퍼스 데이터사이언스스쿨 / DSS17 EDA PROJECT - 주제 : 인기 영양제/다이어트식품과 코로나19 영향 - Pandas / Matplotlib / Seaborn - Naver DataLab API / Naver Shopping scraping - What I did 판다스판다스판다스판다스판다스 보기 편한 + 가독성 높은 그래프로 시각화하기 네이버 데이터랩 API 써보기! (+검색량 상댓값은 네이버 광고 데이터로 실제 검색량 추정) - 네이버 쇼핑 검색 결과에 제품 타이틀이나 태그같은 요소가 얼마나 영향을 미치는지 좀더 분석해보고 싶은데, 시간이 부족하여 충분히 진행하지 못한 점이 아쉬워서 프로젝트 최종 정리하면서 추가해볼 예정이다. 잘 알려진 사실이기도 하지만, 단순히 제품에 등록해둔 ..

    20210401_TIL

    하루 회고 패스트캠퍼스 데이터 사이언스 스쿨 (DAY 28) 한글 자연어 처리 - 설치가 너무 오래 걸려서 난 colab으로 대체했다 - Konlpy, Wordcloud - Naive Bayes Classifier - 문장간 유사도 흠. 관심있는 분야라 개인적으로 좀더 공부해볼 예정. 공부하고 싶은 건 많고 시간은 항상 부족하구나 :(