K-Nearest Neighbor (KNN)
KNN은 지도 학습(Supervised Learning)의 일종으로, 분류(Classification)와 회귀(Regression) 문제에 모두 사용될 수 있는 알고리즘이다.
데이터 점들 간의 거리를 측정하여 가장 가까운 이웃들을 찾아내는 알고리즘을 말한다. 이렇게 찾아낸 이웃들의 레이블을 분류 문제(Classification)에서는 다수결 투표를 통해, 회귀 문제(Regression)에서는 이웃들의 평균값을 계산하여 예측한다.
장점
- 델을 학습시키는 과정이 없기 때문에, 실시간으로 데이터를 분류하거나 예측하는 데에 적합
- 이해하기 쉬운 알고리즘이기 때문에, 비전문가도 쉽게 이해할 수 있음
단점
- 데이터 포인트 간의 거리를 계산하기 때문에, 데이터의 차원이 늘어날수록 계산 비용이 증가하며, 이상치(Outlier)에 민감해짐
- 이웃의 수(K)를 어떻게 설정하느냐에 따라 결과가 크게 달라질 수 있기 때문에, 적절한 K값을 찾는 것이 중요
- 이상적인 K값을 찾는 방법으로는, 교차 검증(Cross Validation)을 통해 K값을 바꾸어가며 모델의 성능을 평가하는 것이 있음
Random Forest
랜덤 포레스트는 의사 결정 나무(Decision Tree)를 여러 개 연결하여 만든 앙상블(Ensemble) 모델이다. 각각의 의사 결정 나무들은 랜덤하게 선택된 변수들을 기준으로 학습하며, 이렇게 만들어진 여러 개의 의사 결정 나무들을 조합하여 최종 예측 모델을 만든다.
장점
- 높은 예측 정확도 :
- 여러 개의 의사 결정 나무들을 조합함으로써, 개별 의사 결정 나무의 단점을 보완하고 예측 정확도를 향상시킴
- 과적합 방지 :
- 각각의 의사 결정 나무들이 랜덤하게 선택된 변수들을 기준으로 학습하기 때문에, 과적합(Overfitting)을 방지할 수 있음
- 변수 중요도 파악 :
- 랜덤 학습으로, 각 변수들의 중요도를 파악할 수 있음
단점
- 높은 계산 비용 :
- 여러 개의 의사 결정 나무들을 학습하고 조합하기 때문에, 학습 시간과 예측 시간이 오래 걸릴 수 있음
- 해석력 낮음 :
- 여러 개의 의사 결정 나무들을 조합하여 만들기 때문에, 최종 모델의 해석력이 낮을 수 있음
랜덤 포레스트는 분류(Classification)와 회귀(Regression) 문제에 모두 적용될 수 있으며, 다양한 분야에서 사용되고 있다.
'WIDA > DACON 분류-회귀' 카테고리의 다른 글
[DACON/김규리] 분류 모델 알아보기 (1) | 2023.03.24 |
---|---|
[DACON/조아영] 분류 모델 알아보기 (0) | 2023.03.24 |
[DACON/김세연] 분류 모델 알아보기 (0) | 2023.03.23 |
[DACON/김경은] 분류 모델 알아보기 (0) | 2023.03.23 |
[DACON/김민혜] 분류 모델 알아보기 (1) | 2023.03.22 |