Make the Learning Curve48 기계학습 이론과 기본 개념( + SVM, 통계모델) 기계 학습: T라는 작업의 기존 P성능을 학습 E를 통해 성능이 개선되는 것을 학습한다고 말한다. 분류(Classification): 미리 정의된 범주에 입력 데이터를 할당하는 문제 (범주 O) 군집화(clustering): 미리 정의된 규칙에 따라 데이터를 그룹화하는 문제 기계학습 방법론 * 지도학습, 비지도학습, 반지도학습 1. 지도학습 정답이 부착된 데이터(Label)를 바탕으로 학습 진행 [장점] 비지도 학습에 비해 높은 성능을 보인다. [단점] 데이터 구축에 많은 시간과 노력이 필요하다. 예시 : 기사 분류, 영화평 예측(긍정, 부정), 기계 독해, 기계 번역, 챗봇 등 정답이 있는 레이블 2. 비지도학습 정의된 척도(Measure)에 따라 학습 진행 [장점]데이터 구축이 쉽다.(정답 부착 불필.. 2021. 10. 29. [SQL] Mysql 문법 정리1 - 데이터 정의어(DDL) : 생성, 변경, 삭제 데이터 정의어 (DDL) 명령어 학습 데이터 정의어는 테이블을 생성, 변경, 삭제할 때 사용하는 명령어이다. 참고 : https://www.boostcourse.org/ds102/joinLectures/114920 1. 데이터베이스 생성 (CREATE DATABASE) CREATE DATABASE [데이터베이스 이름] ; CREATE DATABASE Practice; 2. 데이터베이스 사용(USE) USE [데이터베이스 이름]; USE Practice; 3. 테이블 생성(CREATE TABLE) CREATE TABLE [테이블 이름] ( [번호] INT PRIMARY KEY, [이름] VARCHAR(20), [날짜] DATE NOT NULL, [동의여부] BIT ); CREATE TABLE 회원테이블 (.. 2021. 8. 23. SQL 1. SQL 및 관계형 데이터베이스 1-1. 관계형 데이터베이스란? 관계형 데이터베이스( RDB = Relational DataBase)는 행과 열로 구성된 테이블(A : 관계형 테이블)이 다른 테이블(B, C)과 관계를 맺고 모여있는 집합체이다. 관계형 테이블은 1:1, 1:N , N:N 세가지 형태로 테이블 간의 연결이 가능하다는 것을 의미한다. 1-2. SQL이란? SQL(Structured Query Language)은 관계형 데이터베이스가 이해할 수 있는 구조화된 질의어이다. ( 참고 : 부스트코스 - 기초 데이터 분석을 위한 핵심 SQL) 데이터(접속 기록, 회원가입 기록, 구매 내역 등)가 행과 열로 테이블 형태로 저장되며 이러한 테이블이 모여 특정한 관계를 맺고 관계형 데이터베이스에 저장이.. 2021. 8. 23. [Random Forest 개요] Random Forest 1. Random Forest 설명 Decision Tree에 bagging과 random feature selection을 사용한 기술이다. - 다수(복수)의 decision tree를 이용하여 많이 선택 된 클래스 예측을 선택한다. 다시 말해서, 여러개의 decision tree의 조합으로 의사결정을 하는 것이다. (앙상블 모형) - 이때, forest = 많은 tree (여러개의 dicision trees) 를 의미한다. - data noise에 대해 견고하다. 1-1 Decision Tree의 장점 - 의사 결정 과정의 이해가 쉽다. (설명력이 좋다.) - 구현이 쉽다. 1-2 Decision Tree의 단점 - Recursive partitioing이 항상 최선은 아니다.. 2021. 6. 4. Text Mining 개요 ( Bow, VSM, TF, IDF, TF-idf , IR) - Mining : 가치있거나 유용한 광물을 캐는 것 - X_Mining X = 대상 ( ex : Data(text, patent ...) ) 대상으로부터 가치있거나 유용한 것을 얻는 것이다. 이를 위해 새로운 perspective, 효과적인 솔루션, 효울적인 데이터 분석이 필요하다. -Data Mining : 데이터로부터 가치있거나 유용한 것을 얻는 것이다. 거대한 데이터셋에서 패턴(needs 등)을 발견하는 과정이다. intelligent methods의 필수적인 과정으로, 효과적인 인사이트 및 데이터 패턴을 발굴하는데 사용된다. Steps) 1) 데이터 구조화 2) 데이터에 적용하고자 하는 model 구축 3) 모델 평가 및 모델을 데이터에 적용하여 분석 Important Things : 어떤 데이.. 2021. 4. 21. [Python] pyautogui를 이용한 마우스 자동화(feat. ppt 자동 인쇄) 안녕하세요, 에이도입니다. 어제 개강을 하고, 강의자료를 인쇄해야 하는데 많은 분들이 아시는 것처럼 A4 한 장에 ppt 한 장을 인쇄한다는 건 너무 아깝지 않으신가요..? 저는 그게 너무 아깝고 비효율적이라고 생각하여 2장 혹은 4장씩 인쇄를 해서 사용합니다! 그런데 이게 한, 두개일때는 괜찮은데 ppt 파일만 10개, 20개 정도 되어가니 하나하나 하는 게 비효율적이라고 생각했습니다.(산업공학과 종특인가요..ㅎ 비효율적인 것을 효율적으로!!) 그래서 이를 해결하고자 ppt 4장 분할인쇄 python을 검색했지만 없는 것 같았습니다.(제대로 안 찾아봄) 그러다 저번에 유튜브에서 잠깐 보았던 파이썬에 마우스를 제어하는 라이브러리가 있다는 것이 떠올랐고, 바로 검색을 했고 pyautogui를 찾았습니다! .. 2021. 3. 3. [부스트코스]파이썬으로 시작하는 데이터 사이언스 -수료 www.boostcourse.org/ds112/joinLectures/28137 파이썬으로 시작하는 데이터 사이언스 부스트코스 무료 강의 www.boostcourse.org 안녕하세요, 에이도입니다. 부스트코스의 파이썬으로 시작하는 데이터 사이언스 강의를 수료했습니다! 이 강의를 통해 공공데이터를 통한 데이터 분석을 실제로 경험해았습니다. 이 강의에서는 총 3개의 프로젝트를 직접 경험해 볼 수 있습니다. 1. 서울 종합병원 분포 확인하기. 2. 건강검진 데이터로 가설검정 하기. 3. K-Beauty 온라인 판매분석하기. 저는 이 3가지 프로젝트를 직접 실습하며 판다스와 seaborn을 통한 분석 및 시각화에 조금은 익숙해진다는 느낌을 받았습니다. 실습해보며 혼자서도 데이터 분석 할 수 있는 길을 열어 주.. 2021. 2. 25. [부스트코스] 파이썬으로 시작하는 데이터 사이언스 Quiz4 - K-beauty 온라인 판매분석 2021. 2. 25. [django] 장고를 이용한 웹사이트 만들기_Part1 안녕하세요 에이도입니다. 저는 코드라이언에서 일단 만드는 장고 강의를 구매 후 수강하고 있습니다. 평소 웹을 직접 만들어 보고 싶었는데 이 강의가 저번 주 새로 오픈해서 선택을 했습니다. (처음엔 wikidocs에서 플라스크로 도전해 보았지만 어려움이 많아 강의를 선택한 이유도 있습니다.) 장고를 선택한 이유는 딱 하나입니다. 할 줄 아는 언어가 파이썬뿐이라서..입니다. 물론 웹 크롤링, 스크래핑을 하며 html 구조는 간단하게 알고 있었고, 부스트 코스에서 html 강의를 조금 들어서 아예 모르지는 않았지만, css를 어떻게 사용하는지는 제대로 알지 못했고 js도 전혀 알지 못합니다.. 그래서 장고를 선택하였습니다. Day1 - Day2 1. 가상 환경 만들기 2. 가상환경 실행 후 장고 설치 3. 프.. 2021. 2. 23. 2021 삼성SDS 랜선 멘토링 후기 ( + 후기 책 선물) 안녕하세요, 에이도입니다. 저는 오늘, 삼성SDS 랜선 멘토링을 참가했습니다! www.samsungsds.com/kr/story/210201-mentoring.html?moreCnt=3&backTypeId=story&category=all 온라인으로 새롭게 돌아온 삼성SDS 랜선 멘토링 온라인으로 새롭게 돌아온 삼성SDS 랜선 멘토링 www.samsungsds.com (여기서 사용되는 사진은 삼성SDS 랜선 멘토링에서 캡처한 이미지입니다.) 오늘 멘토링에서는 총 3분의 프로님들께서 나오셔서 말씀해주셨습니다. 처음 나오신 프로님께서는 진행을, 다른 두 프로님들 께서는 개발 파트, 데이터 분석 파트 현업에 있어서 업무와 QnA를 해주셨습니다. 2시간 정도 프로그램이 진행했는데 저는 1시간만에 끝난 줄 알았습.. 2021. 2. 18. [부스트코스] 파이썬으로 시작하는 데이터 사이언스 Quiz3 - 건강검진 데이터로 가설검정하기 2021. 2. 15. [부스트코스] Hello, 데이터 사이언스! / 수강 1. 데이터 사이언스란 무엇일까? www.boostcourse.org/ds001/lecture/277825/ Hello, 데이터 사이언스! 부스트코스 무료 강의 www.boostcourse.org [정의] 데이터 사이언스는 어떤 것에 무게를 두냐에 따라 다르다. 이처럼 데이터사이언스에 대한 정의가 다양하지만, 여기서 설명해주시는 가장 적절한 데이터 사이언스의 정의는 아래와 같다. 데이터 사이언스에 필요한 3가지 역량 : 도메인 지식 + 수학(통계) + 컴퓨터 사이언스 다시 말해서, 직무, 산업에 대한 지식 + 통계적 지식 + 컴퓨터공학적인 기술도 잘 아는 것이다. 하지만, 현실에서 이 3가지를 모두 다 달성하는 것은 어렵다고 한다. (이 3가지 모두 다 달성하면 유니콘이라고 부른다고 하신다. / 유니콘:.. 2021. 2. 15. 이전 1 2 3 4 다음