본문 바로가기

Make the Learning Curve/Data Science12

기계학습 이론과 기본 개념( + SVM, 통계모델) 기계 학습: T라는 작업의 기존 P성능을 학습 E를 통해 성능이 개선되는 것을 학습한다고 말한다. 분류(Classification): 미리 정의된 범주에 입력 데이터를 할당하는 문제 (범주 O) 군집화(clustering): 미리 정의된 규칙에 따라 데이터를 그룹화하는 문제 기계학습 방법론 * 지도학습, 비지도학습, 반지도학습 1. 지도학습 정답이 부착된 데이터(Label)를 바탕으로 학습 진행 [장점] 비지도 학습에 비해 높은 성능을 보인다. [단점] 데이터 구축에 많은 시간과 노력이 필요하다. 예시 : 기사 분류, 영화평 예측(긍정, 부정), 기계 독해, 기계 번역, 챗봇 등 정답이 있는 레이블 2. 비지도학습 정의된 척도(Measure)에 따라 학습 진행 [장점]데이터 구축이 쉽다.(정답 부착 불필.. 2021. 10. 29.
[Random Forest 개요] Random Forest 1. Random Forest 설명 Decision Tree에 bagging과 random feature selection을 사용한 기술이다. - 다수(복수)의 decision tree를 이용하여 많이 선택 된 클래스 예측을 선택한다. 다시 말해서, 여러개의 decision tree의 조합으로 의사결정을 하는 것이다. (앙상블 모형) - 이때, forest = 많은 tree (여러개의 dicision trees) 를 의미한다. - data noise에 대해 견고하다. 1-1 Decision Tree의 장점 - 의사 결정 과정의 이해가 쉽다. (설명력이 좋다.) - 구현이 쉽다. 1-2 Decision Tree의 단점 - Recursive partitioing이 항상 최선은 아니다.. 2021. 6. 4.
Text Mining 개요 ( Bow, VSM, TF, IDF, TF-idf , IR) - Mining : 가치있거나 유용한 광물을 캐는 것 - X_Mining X = 대상 ( ex : Data(text, patent ...) ) 대상으로부터 가치있거나 유용한 것을 얻는 것이다. 이를 위해 새로운 perspective, 효과적인 솔루션, 효울적인 데이터 분석이 필요하다. -Data Mining : 데이터로부터 가치있거나 유용한 것을 얻는 것이다. 거대한 데이터셋에서 패턴(needs 등)을 발견하는 과정이다. intelligent methods의 필수적인 과정으로, 효과적인 인사이트 및 데이터 패턴을 발굴하는데 사용된다. Steps) 1) 데이터 구조화 2) 데이터에 적용하고자 하는 model 구축 3) 모델 평가 및 모델을 데이터에 적용하여 분석 Important Things : 어떤 데이.. 2021. 4. 21.
[CNN] CNN을 이용한 MNIST-3 // MNIST Predict 2020/12/18 - [2020/데이터사이언스(DL,ML)] - [CNN] CNN을 이용한 MNIST-1 // MNIST 이해 및 데이터 확인 [CNN] CNN을 이용한 MNIST-1 // MNIST 이해 및 데이터 확인 1) MNIST 데이터베이스란? MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝.. lheon.tistory.com 2020/12/18 - [2020/데이터사이언스(DL,ML)] - [CNN] CNN을 이용한 MNIST-2 // 모델링 [CNN] CNN을 이용한 MNIST-2 // 모델링 2020/12/.. 2020. 12. 18.
[CNN] CNN을 이용한 MNIST-2 // 모델링 2020/12/18 - [2020/데이터사이언스(DL,ML)] - [CNN] CNN을 이용한 MNIST-1 // MNIST 이해 및 데이터 확인 [CNN] CNN을 이용한 MNIST-1 // MNIST 이해 및 데이터 확인 1) MNIST 데이터베이스란? MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝.. lheon.tistory.com 1. 이미지 데이터 (X 데이터)를 3차원 데이터로 reshape CNN의 foramt에 맞추기 위해서 3차원으로 바꿔야 합니다. (가로, 세로, 채널) => 3차원 이 차원은 2차원이기 .. 2020. 12. 18.
[CNN] CNN을 이용한 MNIST-1 // MNIST 이해 및 데이터 확인 1) MNIST 데이터베이스란? MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용된다. 이 데이터베이스는 또한 기계 학습 분야의 트레이닝 및 테스트에 널리 사용된다. NIST의 오리지널 데이터셋의 샘플을 재혼 합하여 만들어졌다. 개발자들은 NIST의 트레이닝 데이터셋이 미국의 인구조사국 직원들로부터 취합한 이후로 테스팅 데이터셋이 미국의 중등학교 학생들로부터 취합되는 중에 기계 학습 실험에 딱 적합하지는 않은 것을 느꼈다. 게다가 NIST의 흑백 그림들은 28x28 픽셀의 바운딩 박스와 앤티 엘리어싱.. 2020. 12. 18.
[딥러닝] Convolution and Pooling in CNN 2020/12/12 - [2020/데이터사이언스개론] - [딥러닝] Convolution and Pooling in CNN 이전 글과 연결되는 합성곱신경망에서 Convolution과 Pooling입니다! [도입] 컴퓨터 비젼에서는 다음과 같이 선,모양(구조 간단) -> 부분 -> 전체 (구조 복잡) 순으로 탐지를 하게 됩니다! 작은 모듈을 인식하고 모아서 결합하고 더 큰 모듈을 만드는 것을 반복합니다. 이를 이용하여 딥러닝에서도 사용하기 위해서 구조가 복잡하지 않은 선이나 모양( vertical edges : 수직 , horizontal edges : 수평)으로 detect하는 operation으로 나누어서 뽑으려고 합니다. 이때 사용하는게 Convolution Operation(합성곱 연산자)입니다! .. 2020. 12. 12.
[딥러닝] Convolutional Neural Network(합성곱 신경망-CNN) 개요 Convolutional Neural Network (CNN) 합성곱 신경망은 딥러닝에서 가장 많이 언급되고, 현재 AI기술로도 많이 언급되고 사용되고있는 기술이다. 주로 컴퓨터비전에서 이미지 인식에 사용되는 딥러닝 알고리즘이다. 컴퓨터비전은 딥러닝 이전에 오랫동안 연구가 계속 되어왔었다. 그러나 딥러닝 알고리즘이 나오고나서 혁신이 일어났다. 왜냐하면, 그 전에 풀 수 없었던 문제를 풀 수 있게 되고 있기 때문이다. NLP(자연어처리)에서도 마찬가지로 딥러닝 이전과 이후는 완전히 달라졌다. 딥러닝을 통해 BreakThourgh(큰 변화)가 생기게 되었다. 컴퓨터비전에서 딥러닝을 이용해서 좋은 결과를 얻기 시작했다! 왜 딥러닝을 사용하는가? Linear Regression을 예로 들면 신경망(Neural .. 2020. 12. 4.
[Deep Learining] 텐서플로우-케라스 신경망을 이용한 선형회귀분석 [코드 분석] 모듈 불러오기 import numpy as np from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Input, Dense from tensorflow.keras import initializers # y = 3*x1 + 5*x2 + 10 [모델 생성] input data가 2개 hidden layer의 뉴런 16개 따라서 2*16 + 16(bias) = 48개입니다. def generator_sequential_model(): model = Sequential( [ Input(2, name = 'input_layer'), #첫 Layer에서 2개의 변수로부터 값을 받고 Dense(16, act.. 2020. 11. 30.
[Deep Learning] What is D/L? 딥러닝이란? 딥러닝이란 무엇인가? 딥러닝 알고리즘은 여러 계층의 계층 구조를 사용하여 표현을 학습(복수 수준)하려고 시도함 시스템에 엄청난 양의 정보를 제공하면 다음과 같은 작업이 시작됨 그것을 이해하고 유용한 방법으로 대응한다. 효과적인 엔드 투 엔드 공동 시스템 학습 대량의 교육 데이터 활용 딥러닝은 시각적, 언어적 정보를 표현하기에 매우 유연하고 학습 가능한 프레임워크를 제공한다. 딥러닝이 가장 혁신을 이루어낸 분야 : 이미지처리, 자연어(NLP)처리 (네이버 papago) 2010년 이후 Deep Neural Network로 인해 Deep Learning이 다시 각광을 받고있다. 그 이유는 크게 두 가지로 뽑을 수 있다. 첫째, 굉장히 많은 데이터가 사용가능하게 되었고, 둘째, 병렬처리 도구, 환경이(GPU .. 2020. 11. 25.
K-Means Algorithms 1) 랜덤으로 K개 벡터 선택 2) 선택되지 않은 벡터들(검은색)을 선택 된 K개 벡터에 가까운 벡터에 할당(assign)한다. 3) 빨강, 파랑의 벡터들의 centroid를 각 각 계산한다. -> 빨강색 X(centroid) 지점과 파랑색 X지점을 찾을 수 있다. 4) 위에서 구한 centroid에서 reassign 진행한다. ( 각 각의 centroid에 가까운 벡터들을 assign) 5) reassign한 후 빨강, 파랑의 벡터들의 새로운 centroid를 각 각 계산한다. 6) 4,5 과정을 계속해서 반복한다. centroid의 변화가 없을때까지 ( 계속 된 reassign에도 일치되는 centroid 찾을 때까지) 반복한다. centroid의 변화가 없고 반복이 멈추었다면, 최종으로 두개(k개).. 2020. 11. 24.
[M/L - Classification]Logistic Regression (feat. Linear Regression) Machine Learning 에는 지도학습( Supervised Learning)과 비지도학습(Unsupervised Learning)이있다. 여기서 지도학습에는 Regression(회귀)와 Classification(분류)가 있다. 두 가지의 특징을 간단히 알아보자. 두 가지 특징을 알기에 앞서 독립변수와 종속변수의 개념을 알아야한다. 일반적으로 독립변수는 주어진 데이터 값 ( x 값) , 종속변수는 독립변수에 의해 영향을 받는 값 (y 값) 이렇게 표현할 수있다. Regression (회귀) 독립변수에 대해서 종속변수 값이 연속형(Continuous) 값으로 나타난다. 독립변수 모델링을 통해 종속변수를 구하고 실제 값을 예측하는 것 ex) [키 185cm, 162.7cm] [온도 : 25.3도 , .. 2020. 11. 24.