본문 바로가기

2020/Toy projects2

[텍스트마이닝-1] How to crawling youtube in python / 파이썬을 이용한 유튜브 크롤링 (feat.Selenium) 1. 웹크롤링 , Bs4의 사용불가 처음 웹크롤링을 하려고했을때, beautifulsoup을 통해서 크롤링을 하려고 시도했다. 하지만, 되지 않았다. 그저 실행만 되고 변화는 없었다.. 이유를 찾아보니 다음과 같이 이유를 친절하게 설명해주신 stackoverflow의 고수가 계셨다.. 간단하게 첫 두 문장만 요약하면, 유튜브 사이트의 댓글은 동적 웹사이트이기 때문에 BeautifulSoup 라이브러리를 사용하는 메인링크로는 크롤링할 수 없다. 라는 의미입니다. beautifulsoup을 그저 크롤링에 사용한다는 것만 알았던 나의 무지함이.. 삽질을 하고 있었습니다. (의미있는 삽질!!) 처음부터 그냥 구글님께 여쭈어볼걸 안되는걸 계속 붙잡고 씨름했었다.오늘도 멍청비용(시간)을 사용했다.. 그래도 다음부터.. 2020. 11. 3.
[로또]로또 당첨번호 분석 / 회차별 상관횟수 / 파이썬 분석 안녕하세요 에이도입니다. 데이터사이언스 실습을 하면서 Text Mining 학습 후 tf-idf , consine similiarity를 실습하면서 코사인유사도를 로또 번호에 적용시켜볼 수 있을까? 라는 궁금증이 생겨 로또 각 회차별 당첨번호 별 코사인유사도를 분석하고자 이 프로젝트를 실시했습니다. 결과부터 말하자면, 코드를 짜고, DataFrame을 만들고 난 후 각 회차별로 같이 나온 번호를 비교하려는 저의 가정이 잘못되었다는걸 깨달았습니다. 로또 당첨번호는 각 회차별로는 MemoryLess가 되기때문에 각 회차별 당첨번호의 코사인 유사도가 아닌, 특정 회차의 당첨번호내의 유사도를 파악해야했습니다. 이는 각 문서내의 단어를 벡터화 시켜 비교하는 코사인유사도 분석과는 다르다는걸 깨닫게 되었고, 다른 방.. 2020. 11. 2.