WIDA/DACON 분류-회귀

[DACON/최다예] 분류 모델 알아보기

다예뻐 2023. 3. 23. 23:57

K-Nearest Neighbor (KNN)

KNN은 지도 학습(Supervised Learning)의 일종으로, 분류(Classification)와 회귀(Regression) 문제에 모두 사용될 수 있는 알고리즘이다.

데이터 점들 간의 거리를 측정하여 가장 가까운 이웃들을 찾아내는 알고리즘을 말한다. 이렇게 찾아낸 이웃들의 레이블을 분류 문제(Classification)에서는 다수결 투표를 통해, 회귀 문제(Regression)에서는 이웃들의 평균값을 계산하여 예측한다.

장점

  • 델을 학습시키는 과정이 없기 때문에, 실시간으로 데이터를 분류하거나 예측하는 데에 적합
  • 이해하기 쉬운 알고리즘이기 때문에, 비전문가도 쉽게 이해할 수 있음

단점

  • 데이터 포인트 간의 거리를 계산하기 때문에, 데이터의 차원이 늘어날수록 계산 비용이 증가하며, 이상치(Outlier)에 민감해짐
  • 이웃의 수(K)를 어떻게 설정하느냐에 따라 결과가 크게 달라질 수 있기 때문에, 적절한 K값을 찾는 것이 중요
  • 이상적인 K값을 찾는 방법으로는, 교차 검증(Cross Validation)을 통해 K값을 바꾸어가며 모델의 성능을 평가하는 것이 있음

Random Forest

랜덤 포레스트는 의사 결정 나무(Decision Tree)를 여러 개 연결하여 만든 앙상블(Ensemble) 모델이다. 각각의 의사 결정 나무들은 랜덤하게 선택된 변수들을 기준으로 학습하며, 이렇게 만들어진 여러 개의 의사 결정 나무들을 조합하여 최종 예측 모델을 만든다.

장점

  • 높은 예측 정확도 :
  • 여러 개의 의사 결정 나무들을 조합함으로써, 개별 의사 결정 나무의 단점을 보완하고 예측 정확도를 향상시킴
  • 과적합 방지 :
  • 각각의 의사 결정 나무들이 랜덤하게 선택된 변수들을 기준으로 학습하기 때문에, 과적합(Overfitting)을 방지할 수 있음
  • 변수 중요도 파악 :
  • 랜덤 학습으로, 각 변수들의 중요도를 파악할 수 있음

단점

  • 높은 계산 비용 :
  • 여러 개의 의사 결정 나무들을 학습하고 조합하기 때문에, 학습 시간과 예측 시간이 오래 걸릴 수 있음
  • 해석력 낮음 :
  • 여러 개의 의사 결정 나무들을 조합하여 만들기 때문에, 최종 모델의 해석력이 낮을 수 있음

랜덤 포레스트는 분류(Classification)와 회귀(Regression) 문제에 모두 적용될 수 있으며, 다양한 분야에서 사용되고 있다.

 

 

https://dad-rock.tistory.com/714