์ฃผ์ : ๊ธ์ต์นด๋ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํธ ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ
[๋ชฉํ]
๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์
[์งํ์ฌํญ]
1. ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ํด๊ฒฐ์ ์ํ SMOTE ์ ์ฉ
๋ฌธ์ ์ ์ธ์: ํ์ฌ ๊ธ์ต์นด๋ ๊ณ ๊ฐ ๋ฐ์ดํฐ์ ์ ์ธ๊ทธ๋จผํธ ๋ถํฌ๋ฅผ ํ์ธํ ๊ฒฐ๊ณผ, A์ B ์ธ๊ทธ๋จผํธ์ ๋ฐ์ดํฐ ๊ฐ์๊ฐ C, D, E ์ธ๊ทธ๋จผํธ์ ๋นํด ํ์ ํ ์ ์ ๊ฒ์ ํ์ธ
SMOTE๋ฅผ ์ด์ฉํ ์ค๋ฒ์ํ๋ง ์ ์ฉ: SMOTE(Synthetic Minority Over-sampling Technique) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์์ ํด๋์ค(A, B)์ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ๋ฐ์ดํฐ์ ์ ๊ท ํ์ ๋ง์ถค
SMOTE๋?
SMOTE๋ k ์ต๊ทผ์ ์ด์(kNN: k-Nearest Neighbor) ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ, ์์ ๋ฒ์ฃผ๋ด ์์ ์ํ์ ์ค์ฌ์ผ๋ก k-์ต๊ทผ์ ์ด์์ ์ฐพ์, ๋ ์ํ ์ฌ์ด๋ฅผ ๋๋คํ ๋น์จ๋ก ์ ํ ๋ณด๊ฐํ์ฌ ์๋ก์ด ์ํ์ ์์ฑํ๋ ๊ธฐ๋ฒ
→ ๋จ์ ๋ณต์ ๋ฐฉ์์ ์ค๋ฒ์ํ๋ง์ด ๊ฐ์ง ์ ์๋ ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ์ํํ๋ ๋ฐ ๋์
์ค๋ฒ์ํ๋ง์ด๋?
์ค๋ฒ์ํ๋ง์ ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ์์ ์์ ํด๋์ค์ ๋ฐ์ดํฐ ์๋ฅผ ์ธ์์ ์ผ๋ก ๋๋ ค ๋ฐ์ดํฐ ๋ถํฌ์ ๊ท ํ์ ๋ง์ถ๋ ๊ธฐ๋ฒ
2. ๊ณผ์ ํฉ ๋ฐฉ์ง๋ฅผ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋
ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋: SMOTE ์ ์ฉ ํ, ๋ชจ๋ธ์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด XGBoost ๋ชจ๋ธ์ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ํ๋์ ์งํ
ํ๋ ์ฝ๋ ๋ฐ ์ค๋ช :
model = xgb.XGBClassifier(
objective='multi:softprob',
max_depth=6,
learning_rate=0.08,
n_estimators=500,
subsample=0.8,
colsample_bytree=0.8,
min_child_weight=5,
gamma=1,
tree_method='hist',
random_state=42
)
์ ์ฝ๋๋ XGBoost ๋ถ๋ฅ ๋ชจ๋ธ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ ํน์ ๊ฐ์ผ๋ก ์ค์ ํ๋ ๊ณผ์
๊ฐ ํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ์ ํ์ต ๋ฐฉ์๊ณผ ๋ณต์ก๋์ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ ์ ํ ํ๋์ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์์
[ํ์ฌ ๊ฒฐ๊ณผ]
0.638 → 0.648(0.01์์น)
[ํฅํ ๊ณํ]
SHAP๊ณผ LIME์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ค๋ช ํ ์์
'๐ก WIDA > ํ๋ก์ ํธ ๋ณด๊ณ ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[WIDA] 3ํ_3์ฐจ ๋ณด๊ณ ์ (0) | 2025.05.16 |
---|---|
[WIDA] 1ํ_3์ฐจ ๋ณด๊ณ ์ (0) | 2025.05.09 |
[WIDA] 3ํ_2์ฐจ ๋ณด๊ณ ์ (0) | 2025.04.04 |
[WIDA] 1ํ_2์ฐจ ๋ณด๊ณ ์ (0) | 2025.04.03 |
[WIDA] 2ํ_2์ฐจ ๋ณด๊ณ ์ (0) | 2025.04.02 |