[DACON/김민혜] 분류 모델 알아보기

💡 WIDA/DACON 분류-회귀

[DACON/김민혜] 분류 모델 알아보기

알 수 없는 사용자 2023. 3. 22. 00:47

분류 classification

지도학습의 대표적인 유형
- 지도학습: 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식
학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델 생성
생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것
⇒ 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤, 새롭게 관측된 데이터에 대한 레이블을 판별하는 것.
출력하고자 하는 값이 카테고리값(이산형)인 경우
독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값(클래스)을 예측하는 문제
- 즉, 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지
  - ex. 이미지를 컴퓨터에 입력했을 때 “개”인지 “고양이”인지 판별하는 문제

결정 트리 Decision Tree

개념

: 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반으로 분류 규칙을 만드는 것.

ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘
데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인지가 관건

규칙 노드(Decision Node)에서 규칙에 따라 분할됨. 규칙 조건을 나타냄
서브 트리(Sub Tree)는 새로운 규칙 조건마다 생성됨.
계속되는 규칙에 따라 노드가 분할되며 최종적으로 리프 노드(Leaf Node)에서는 결정된 클래스 값을 가지게 됨
결정 트리를 구성할 때 한쪽으로 치우치지 않게 적절히 분할해야 하며 가지치기를 통해 관련성이 적은 서브 트리를 제거 or 트리의 깊이에 제한을 두는 등의 방식으로 과적합이 일어나지 않을 적절한 트리 만들어야 함
많은 규칙이 있다는 것 = 분류를 결정하는 방식이 더욱 복잡해짐
⇒ 트리의 깊이가 깊어질수록 결정 트리의 예측 성능이 저하될 가능성이 높음
트리를 효율적으로 분할하기 위해 최대한 균일한 데이터 세트를 구성하는 것이 중요
- 균일도 측정방법
  1. 정보 이득: 엔트로피(주어진 데이터 집합의 혼잡도) 개념 기반. 서로 다른 값이 섞여 있으면 높고, 같은 값이 섞여 있으면 낮음.
    - 정보 이득이 높은 속성을 기준으로 분할
    - 정보 이득 지수 = 1-엔트로피 지수
  2. 지니 계수: 0이 가장 평등하며 1로 갈수록 불평등. 데이터가 다양한 값을 가질수록 평등, 특정 값으로 쏠릴 때는 불평등한 값.
    - 다양성이 낮을수록 균일도가 높다는 의미이므로 1로 갈수록 균일도가 높으며, 지니 계수가 높은 속성을 기준으로 분할

특징

장점
- ‘균일도’라는 룰을 기반으로 하고 있어 알고리즘이 쉽고 직관적임.
- 정보의 균일도만 신경쓰면 되므로 각 피처의 스케일링과 정규화 같은 전처리 작업 불필요
단점
- 과적합으로 떨어지는 정확도
- 학습 데이터 기반 모델의 정확도를 높이기 위해 계속해서 조건을 추가하며 트리 깊이가 깊어지고, 결과적으로 복잡한 학습 모델이 됨
시각화는 사이킷런에서 제공하는 Graphviz 패키지 사용

앙상블 학습 Ensemble Learning

개념

DEF) 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법

목표: 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것 (집단지성 느낌)
대부분의 정형 데이터를 분류해 낼 때 뛰어난 효과를 나타냄

학습 유형
1. Voting: 하나의 데이터 셋에서 다양한 알고리즘의 분류기를 사용해 예측한 값을 결합하는 방식
  - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식 - 서로 다른 알고리즘을 가진 분류기의 결합
2. Bagging: 한 가지의 알고리즘 분류기를 통해 다양한 데이터 셋 각각을 학습시켜 예측한 값을 결합
  - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식 - 각각의 분류기가 모두 같은 유형의 알고리즘 기반. 데이터 샘플링을 서로 다르게 하면서 보팅 수행.
    - ex) 랜덤 포레스트 알고리즘
  - 대부분 결정 트리 알고리즘을 기반으로 함
3. Boosting: 여러 개의 분류기를 학습하면서 앞서 예측을 진행한 분류기가 예측에 틀린 데이터에 대해 가중치(weight)를 부여하여 다음 분류기의 학습을 진행하는 방식
  - XGBoost(eXtra Gradient Boost), LightGBM(Light Gradient Boost), 그래디언트 부스트
  - 대부분 결정 트리 알고리즘을 기반으로 함
- Stacking: 미리 다른 알고리즘 분류기로로 학습한 예측 값을 다시 학습용 데이터로 만들어 다른 분류기에 재 학습시키는 방식
  - 배깅 및 부스팅과의 공통점 - 개별적인 여러 알고리즘을 서로 결합해 예측 결과 도출
  - 차이점 - 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측 수행

보팅 voting

하드 보팅
- 다수결 원칙과 비슷함
- 예측한 결과값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결과값으로 선정하는 것
소프트 보팅
- 분류기들의 레이블 값 결정 확률을 모두 더하고 평균하여 확률이 가장 높은 레이블 값을 최종 보팅 결과값으로 선정
- 예측 성능이 좋아 일반적으로 더 많이 사용됨

배깅 bagging - 랜덤 포레스트

: 같은 알고리즘으로 여러 개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘

랜덤 포레스트는 데이터가 중첩된 개별 데이터 세트에 결정 트리 분류기를 각각 적용하는 것

앙상블 알고리즘 중 비교적 빠른 수행 속도
다양한 영역에서 높은 예측 성능
기반 알고리즘은 결정 트리로, 쉽고 직관적인 장점
부트스트래핑 bootstrapping
- 개별 트리가 학습하는 데이터 세트는 전체 데이터에서 일부가 중첩되게 샘플링된 데이터 세트
- 여러 개의 데이터 세트를 중첩되게 분리하는 것
사이킷런은 RandomForestClassifier 클래스를 통해 랜덤 포레스트 기반의 분류를 지원함
하이퍼 파라미터 및 튜닝
- n_estimators: 랜덤 포레스트에서 결정 트리의 개수 지정. 디폴트 10개. 늘릴수록 학습 수행 시간이 오래 걸림.
- max_features: 결정 트리에 사용된 max_features 파라미터와 같음. 단, ‘None’이 아닌 ‘auto’(=’sqrt’)와 같음
- max_depth, min_samples_leaf: 결정 트리에서의 과적합을 개선하기 위해 사용되는 파라미터가 랜덤 포레스트에도 똑같이 적용될 수 O

부스팅 boosting - GBM(Gradient Boosting Machine)

: 여러 개의 약한 학습기를 순차적으로 학습—예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 가며 학습하는 방식인 부스팅.

대표적인 부스팅의 구현으로 AdaBoost(Adaptive boosting)과 그래디언트 부스트
- AdaBoost: 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘
  - 피처 데이터 세트에서 회차별로 잘못된 예측이 존재한다면 해당 오류 데이터에 가중치를 부여해 약한 학습기가 쉽게 분류할 수 있도록 함
- GBM: 전반적으로 유사하나, 가중치 업데이트를 경사 하강법을 이용함.
  - 오류 값 = 실제 값 - 예측값
  - 경사 하강법(Gradient Descent): 오류식을 최소화하는 방향성을 가지고 반복적으로 가중치 값을 업데이트하는 것.
  - ⇒ 반복 수행을 통해 오류를 최소화할 수 있도록 가중치의 업데이트 값을 도출하는 기법
  - 분류와 회귀 모두 가능함
  - 사이킷런은 GradientBoostingClassifier 클래스 제공
- 수행 시간이 오래 걸리고, 하이퍼 파라미터 튜닝 노력도 더 필요함
- 수행 시간 문제가 가장 중요하게 극복해야 할 문제임
- 하이퍼 파라미터 및 튜닝
  - loss: 경사 하강법에서 사용할 비용 함수를 지정. 기본값은 ‘deviance’
  - learning_rate: GBM이 학습을 진행할 때마다 적용하는 학습률. weak learner가 순차적으로 오류 값을 보정해 나가는 데 적용하는 계수. 기본값은 0.1이며 너무 작은 값을 적용하면 업데이트 되는 값이 작아져 최소 오류값을 찾아 예측 성능이 높아질 가능성이 높음.
  - n_estimators와 상호 보완적으로 조합해 사용함.
  - n_estimators: weak learner의 개수. 개수가 많을수록 예측 성능이 일정 수준까지는 좋아질 수 있음. 그러나 수행 시간이 오래 걸림. 기본값은 100.
  - subsample: weak learner가 학습에 사용하는 데이터의 샘플링 비율. 기본값은 1로, 전체 학습 데이터를 기반으로 학습한다는 의미.
  - max_features: 결정 트리에 사용된 max_features 파라미터와 같음. 단, ‘None’이 아닌 ‘auto’(=’sqrt’)와 같음
  - max_depth, min_samples_leaf: 결정 트리에서의 과적합을 개선하기 위해 사용되는 파라미터가 랜덤 포레스트에도 똑같이 적용될 수 O

XGBoost(eXtra Gradient Boost)

: 트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나.

GBM의 단점인 느린 수행 시간 및 과적합 규제 부재 등의 문제를 해결
병렬 CPU 환경에서 병렬 학습이 가능해 빠르게 학습을 완료 할 수 있음
주요 장점
- 뛰어난 예측 성능
- GBM 대비 빠른 수행 시간
- 과적합 규제
- 나무 가지치기
- 자체 내장된 교차 검증
- 결손값 자체 처리
핵심 라이브러리는 C/C++로 작성되어 있으나, 파이썬 패키지 ‘xgboost’도 제공

🗣 실질적으로 코드를 작성하고 프로그램을 실행해보는 과정은 이해가 어려워 깊이 공부하지는 못했어요 😔

출처: [파이썬 머신러닝 완벽 가이드]

'💡 WIDA > DACON 분류-회귀' 카테고리의 다른 글

[DACON/김세연] 분류 모델 알아보기 (0)	2023.03.23
[DACON/김경은] 분류 모델 알아보기 (0)	2023.03.23
[DACON/김규리] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0)	2023.03.17
[DACON/최다예] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0)	2023.03.16
[DACON/김경은] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0)	2023.03.16

현재글[DACON/김민혜] 분류 모델 알아보기

✨ Data Shows the wOrld Better ✨ DSOB은 데이터를 통해 세상의 숨겨진 인사이트를 발견하고, 이를 이해하며, 문제를 해결하고자 하는 열정을 가진 사람들과 함께합니다.

데이터사이언스 #분류 #분류모델 #dacon, 5주차, 반복문, 코딩천재, Python, 4차시, randomforest, 1차시과제, 김경은, 3팀, 함수, DSOB #Python #자료형, dacon, 김수경, 3차시, DSOB #python #조건문, classification, DSOB #파이썬 #입출력, 데이터분석, dsob,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

DSOB