[Random Forest 개요]

Random Forest

1. Random Forest 설명

Decision Tree에 bagging과 random feature selection을 사용한 기술이다.

- 다수(복수)의 decision tree를 이용하여 많이 선택 된 클래스 예측을 선택한다.
다시 말해서, 여러개의 decision tree의 조합으로 의사결정을 하는 것이다. (앙상블 모형)

- 이때, forest = 많은 tree (여러개의 dicision trees) 를 의미한다.

- data noise에 대해 견고하다.

1-1 Decision Tree의 장점

- 의사 결정 과정의 이해가 쉽다.
(설명력이 좋다.)

- 구현이 쉽다.

1-2 Decision Tree의 단점

- Recursive partitioing이 항상 최선은 아니다.
-> Data의 불확실성을 낮추는데 사용되지만 greedy 알고리즘을 따르기 때문에 local optimum에 빠지기 쉽다.
-> 따라서, 각 partitioing에 있어 최선의 선택이기 때문에 최종 결정에서 Global optimal solution이 아니다.

- Non-Linear data에 대해서는 적절하지 않다. (Linear data의 사용성이 더 좋다.)

: 이러한 한계점을 극복하기 위한 방법으로 Random Forest가 제안되었다.

2. Main Concepts

- 여러개의 decision tree를 학습하기 위해 무작위의 feature selection이 이루어진다.

- Bagging 기법 사용.

-> 자료의 샘플링 기법이며, 복원추출을 통한 샘플 데이터 셋을 구성한다.

-> 위의 샘플 데이터셋은 해당 데이터내의 feature를 무작위 조합을 선택하여 구성하므로 많은 feature 조합을 만들 수 있다.

-> 변수를 줄이고 과적합(오버피팅)을 피하도록 한다.

-> model averaging approach이다.

3. Random forest 훈련 과정

- 1) bagging과 random features를 사용한 training data set를 준비한다.

- 2) 각 훈련 데이터 셋을 decision trees를 이용해 각각 학습 시킨다. (output - class는 동일하다)

- 3) 위에서 예측한 분류의 voting(다수의 decision tree가 선택한 분류 결과)을 통해 Majortiy voting class를 최종 결정한다.

저작자표시 비영리 변경금지 (새창열림)

'Make the Learning Curve > Data Science' 카테고리의 다른 글

기계학습 이론과 기본 개념( + SVM, 통계모델) (0)	2021.10.29
Text Mining 개요 ( Bow, VSM, TF, IDF, TF-idf , IR) (0)	2021.04.21
[CNN] CNN을 이용한 MNIST-3 // MNIST Predict (0)	2020.12.18
[CNN] CNN을 이용한 MNIST-2 // 모델링 (0)	2020.12.18
[CNN] CNN을 이용한 MNIST-1 // MNIST 이해 및 데이터 확인 (0)	2020.12.18

에이도

[Random Forest 개요]

Random Forest

1. Random Forest 설명

1-1 Decision Tree의 장점

1-2 Decision Tree의 단점

2. Main Concepts

3. Random forest 훈련 과정

'Make the Learning Curve > Data Science' 카테고리의 다른 글

댓글

티스토리툴바

[Random Forest 개요]

Random Forest

1. Random Forest 설명

1-1 Decision Tree의 장점

1-2 Decision Tree의 단점

2. Main Concepts

3. Random forest 훈련 과정

'Make the Learning Curve > Data Science' 카테고리의 다른 글

관련글

댓글

티스토리툴바