๋ถ๋ฅ classification
- ์ง๋ํ์ต์ ๋ํ์ ์ธ ์ ํ
- ์ง๋ํ์ต: ๋ช ์์ ์ธ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง ์ํ์์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋ ๋ฐฉ์
- ํ์ต ๋ฐ์ดํฐ๋ก ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ํผ์ฒ์ ๋ ์ด๋ธ๊ฐ(๊ฒฐ์ ๊ฐ, ํด๋์ค ๊ฐ)์ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ตํด ๋ชจ๋ธ ์์ฑ
- ์์ฑ๋ ๋ชจ๋ธ์ ์๋ก์ด ๋ฐ์ดํฐ ๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๋ฏธ์ง์ ๋ ์ด๋ธ ๊ฐ์ ์์ธกํ๋ ๊ฒ
⇒ ๊ธฐ์กด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ ์ด๋ธ์ ์ํ๋์ง ํจํด์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ธ์งํ ๋ค, ์๋กญ๊ฒ ๊ด์ธก๋ ๋ฐ์ดํฐ์ ๋ํ ๋ ์ด๋ธ์ ํ๋ณํ๋ ๊ฒ. - ์ถ๋ ฅํ๊ณ ์ ํ๋ ๊ฐ์ด ์นดํ ๊ณ ๋ฆฌ๊ฐ(์ด์ฐํ)์ธ ๊ฒฝ์ฐ
- ๋
๋ฆฝ๋ณ์๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๊ทธ ๊ฐ๊ณผ ๊ฐ์ฅ ์ฐ๊ด์ฑ์ด ํฐ ์ข
์๋ณ์๊ฐ(ํด๋์ค)์ ์์ธกํ๋ ๋ฌธ์
- ์ฆ, ์ด๋ค ํ๋ณธ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋ ๊ทธ ํ๋ณธ์ด ์ด๋ค ์นดํ
๊ณ ๋ฆฌ ํน์ ํด๋์ค์ ์ํ๋์ง
- ex. ์ด๋ฏธ์ง๋ฅผ ์ปดํจํฐ์ ์ ๋ ฅํ์ ๋ “๊ฐ”์ธ์ง “๊ณ ์์ด”์ธ์ง ํ๋ณํ๋ ๋ฌธ์
- ์ฆ, ์ด๋ค ํ๋ณธ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋ ๊ทธ ํ๋ณธ์ด ์ด๋ค ์นดํ
๊ณ ๋ฆฌ ํน์ ํด๋์ค์ ์ํ๋์ง
๊ฒฐ์ ํธ๋ฆฌ Decision Tree
๊ฐ๋
: ๋ฐ์ดํฐ์ ์๋ ๊ท์น์ ํ์ต์ ํตํด ์๋์ผ๋ก ์ฐพ์๋ด ํธ๋ฆฌ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ฅ ๊ท์น์ ๋ง๋๋ ๊ฒ.
- ML ์๊ณ ๋ฆฌ์ฆ ์ค ์ง๊ด์ ์ผ๋ก ์ดํดํ๊ธฐ ์ฌ์ด ์๊ณ ๋ฆฌ์ฆ
- ๋ฐ์ดํฐ์ ์ด๋ค ๊ธฐ์ค์ ๋ฐํ์ผ๋ก ๊ท์น์ ๋ง๋ค์ด์ผ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ถ๋ฅ๊ฐ ๋ ๊ฒ์ธ์ง๊ฐ ๊ด๊ฑด
- ๊ท์น ๋ ธ๋(Decision Node)์์ ๊ท์น์ ๋ฐ๋ผ ๋ถํ ๋จ. ๊ท์น ์กฐ๊ฑด์ ๋ํ๋
- ์๋ธ ํธ๋ฆฌ(Sub Tree)๋ ์๋ก์ด ๊ท์น ์กฐ๊ฑด๋ง๋ค ์์ฑ๋จ.
- ๊ณ์๋๋ ๊ท์น์ ๋ฐ๋ผ ๋ ธ๋๊ฐ ๋ถํ ๋๋ฉฐ ์ต์ข ์ ์ผ๋ก ๋ฆฌํ ๋ ธ๋(Leaf Node)์์๋ ๊ฒฐ์ ๋ ํด๋์ค ๊ฐ์ ๊ฐ์ง๊ฒ ๋จ
- ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๊ตฌ์ฑํ ๋ ํ์ชฝ์ผ๋ก ์น์ฐ์น์ง ์๊ฒ ์ ์ ํ ๋ถํ ํด์ผ ํ๋ฉฐ ๊ฐ์ง์น๊ธฐ๋ฅผ ํตํด ๊ด๋ จ์ฑ์ด ์ ์ ์๋ธ ํธ๋ฆฌ๋ฅผ ์ ๊ฑฐ or ํธ๋ฆฌ์ ๊น์ด์ ์ ํ์ ๋๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก ๊ณผ์ ํฉ์ด ์ผ์ด๋์ง ์์ ์ ์ ํ ํธ๋ฆฌ ๋ง๋ค์ด์ผ ํจ
- ๋ง์ ๊ท์น์ด ์๋ค๋ ๊ฒ = ๋ถ๋ฅ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ์์ด ๋์ฑ ๋ณต์กํด์ง
⇒ ํธ๋ฆฌ์ ๊น์ด๊ฐ ๊น์ด์ง์๋ก ๊ฒฐ์ ํธ๋ฆฌ์ ์์ธก ์ฑ๋ฅ์ด ์ ํ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ - ํธ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ถํ ํ๊ธฐ ์ํด ์ต๋ํ ๊ท ์ผํ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ตฌ์ฑํ๋ ๊ฒ์ด ์ค์
- ๊ท ์ผ๋ ์ธก์ ๋ฐฉ๋ฒ
- ์ ๋ณด ์ด๋: ์ํธ๋กํผ(์ฃผ์ด์ง ๋ฐ์ดํฐ ์งํฉ์ ํผ์ก๋) ๊ฐ๋
๊ธฐ๋ฐ. ์๋ก ๋ค๋ฅธ ๊ฐ์ด ์์ฌ ์์ผ๋ฉด ๋๊ณ , ๊ฐ์ ๊ฐ์ด ์์ฌ ์์ผ๋ฉด ๋ฎ์.
- ์ ๋ณด ์ด๋์ด ๋์ ์์ฑ์ ๊ธฐ์ค์ผ๋ก ๋ถํ
- ์ ๋ณด ์ด๋ ์ง์ = 1-์ํธ๋กํผ ์ง์
- ์ง๋ ๊ณ์: 0์ด ๊ฐ์ฅ ํ๋ฑํ๋ฉฐ 1๋ก ๊ฐ์๋ก ๋ถํ๋ฑ. ๋ฐ์ดํฐ๊ฐ ๋ค์ํ ๊ฐ์ ๊ฐ์ง์๋ก ํ๋ฑ, ํน์ ๊ฐ์ผ๋ก ์ ๋ฆด ๋๋ ๋ถํ๋ฑํ ๊ฐ.
- ๋ค์์ฑ์ด ๋ฎ์์๋ก ๊ท ์ผ๋๊ฐ ๋๋ค๋ ์๋ฏธ์ด๋ฏ๋ก 1๋ก ๊ฐ์๋ก ๊ท ์ผ๋๊ฐ ๋์ผ๋ฉฐ, ์ง๋ ๊ณ์๊ฐ ๋์ ์์ฑ์ ๊ธฐ์ค์ผ๋ก ๋ถํ
- ์ ๋ณด ์ด๋: ์ํธ๋กํผ(์ฃผ์ด์ง ๋ฐ์ดํฐ ์งํฉ์ ํผ์ก๋) ๊ฐ๋
๊ธฐ๋ฐ. ์๋ก ๋ค๋ฅธ ๊ฐ์ด ์์ฌ ์์ผ๋ฉด ๋๊ณ , ๊ฐ์ ๊ฐ์ด ์์ฌ ์์ผ๋ฉด ๋ฎ์.
- ๊ท ์ผ๋ ์ธก์ ๋ฐฉ๋ฒ
ํน์ง
- ์ฅ์
- ‘๊ท ์ผ๋’๋ผ๋ ๋ฃฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ณ ์์ด ์๊ณ ๋ฆฌ์ฆ์ด ์ฝ๊ณ ์ง๊ด์ ์.
- ์ ๋ณด์ ๊ท ์ผ๋๋ง ์ ๊ฒฝ์ฐ๋ฉด ๋๋ฏ๋ก ๊ฐ ํผ์ฒ์ ์ค์ผ์ผ๋ง๊ณผ ์ ๊ทํ ๊ฐ์ ์ ์ฒ๋ฆฌ ์์ ๋ถํ์
- ๋จ์
- ๊ณผ์ ํฉ์ผ๋ก ๋จ์ด์ง๋ ์ ํ๋
- ํ์ต ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด ๊ณ์ํด์ ์กฐ๊ฑด์ ์ถ๊ฐํ๋ฉฐ ํธ๋ฆฌ ๊น์ด๊ฐ ๊น์ด์ง๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ณต์กํ ํ์ต ๋ชจ๋ธ์ด ๋จ
- ์๊ฐํ๋ ์ฌ์ดํท๋ฐ์์ ์ ๊ณตํ๋ Graphviz ํจํค์ง ์ฌ์ฉ
์์๋ธ ํ์ต Ensemble Learning
๊ฐ๋
DEF) ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ฅ๊ธฐ(Classifier)๋ฅผ ์์ฑํ๊ณ ๊ทธ ์์ธก์ ๊ฒฐํฉํจ์ผ๋ก์จ ๋ณด๋ค ์ ํํ ์ต์ข ์์ธก์ ๋์ถํ๋ ๊ธฐ๋ฒ
- ๋ชฉํ: ๋ค์ํ ๋ถ๋ฅ๊ธฐ์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ ๋จ์ผ ๋ถ๋ฅ๊ธฐ๋ณด๋ค ์ ๋ขฐ์ฑ์ด ๋์ ์์ธก๊ฐ์ ์ป๋ ๊ฒ (์ง๋จ์ง์ฑ ๋๋)
- ๋๋ถ๋ถ์ ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํด ๋ผ ๋ ๋ฐ์ด๋ ํจ๊ณผ๋ฅผ ๋ํ๋
- ํ์ต ์ ํ
- Voting: ํ๋์ ๋ฐ์ดํฐ ์
์์ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํด ์์ธกํ ๊ฐ์ ๊ฒฐํฉํ๋ ๋ฐฉ์
- ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ฅ๊ธฐ๊ฐ ํฌํ๋ฅผ ํตํด ์ต์ข ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ์ - ์๋ก ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ง ๋ถ๋ฅ๊ธฐ์ ๊ฒฐํฉ
- Bagging: ํ ๊ฐ์ง์ ์๊ณ ๋ฆฌ์ฆ ๋ถ๋ฅ๊ธฐ๋ฅผ ํตํด ๋ค์ํ ๋ฐ์ดํฐ ์
๊ฐ๊ฐ์ ํ์ต์์ผ ์์ธกํ ๊ฐ์ ๊ฒฐํฉ
- ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ฅ๊ธฐ๊ฐ ํฌํ๋ฅผ ํตํด ์ต์ข
์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ์ - ๊ฐ๊ฐ์ ๋ถ๋ฅ๊ธฐ๊ฐ ๋ชจ๋ ๊ฐ์ ์ ํ์ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ. ๋ฐ์ดํฐ ์ํ๋ง์ ์๋ก ๋ค๋ฅด๊ฒ ํ๋ฉด์ ๋ณดํ
์ํ.
- ex) ๋๋ค ํฌ๋ ์คํธ ์๊ณ ๋ฆฌ์ฆ
- ๋๋ถ๋ถ ๊ฒฐ์ ํธ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ฅ๊ธฐ๊ฐ ํฌํ๋ฅผ ํตํด ์ต์ข
์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ์ - ๊ฐ๊ฐ์ ๋ถ๋ฅ๊ธฐ๊ฐ ๋ชจ๋ ๊ฐ์ ์ ํ์ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ. ๋ฐ์ดํฐ ์ํ๋ง์ ์๋ก ๋ค๋ฅด๊ฒ ํ๋ฉด์ ๋ณดํ
์ํ.
- Boosting: ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ตํ๋ฉด์ ์์ ์์ธก์ ์งํํ ๋ถ๋ฅ๊ธฐ๊ฐ ์์ธก์ ํ๋ฆฐ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ค์น(weight)๋ฅผ ๋ถ์ฌํ์ฌ ๋ค์ ๋ถ๋ฅ๊ธฐ์ ํ์ต์ ์งํํ๋ ๋ฐฉ์
- XGBoost(eXtra Gradient Boost), LightGBM(Light Gradient Boost), ๊ทธ๋๋์ธํธ ๋ถ์คํธ
- ๋๋ถ๋ถ ๊ฒฐ์ ํธ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- Stacking: ๋ฏธ๋ฆฌ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ ๋ถ๋ฅ๊ธฐ๋ก๋ก ํ์ตํ ์์ธก ๊ฐ์ ๋ค์ ํ์ต์ฉ ๋ฐ์ดํฐ๋ก ๋ง๋ค์ด ๋ค๋ฅธ ๋ถ๋ฅ๊ธฐ์ ์ฌ ํ์ต์ํค๋ ๋ฐฉ์
- ๋ฐฐ๊น ๋ฐ ๋ถ์คํ ๊ณผ์ ๊ณตํต์ - ๊ฐ๋ณ์ ์ธ ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์๋ก ๊ฒฐํฉํด ์์ธก ๊ฒฐ๊ณผ ๋์ถ
- ์ฐจ์ด์ - ๊ฐ๋ณ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์์ธกํ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์์ธก ์ํ
- Voting: ํ๋์ ๋ฐ์ดํฐ ์
์์ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํด ์์ธกํ ๊ฐ์ ๊ฒฐํฉํ๋ ๋ฐฉ์
๋ณดํ voting
- ํ๋ ๋ณดํ
- ๋ค์๊ฒฐ ์์น๊ณผ ๋น์ทํจ
- ์์ธกํ ๊ฒฐ๊ณผ๊ฐ๋ค ์ค ๋ค์์ ๋ถ๋ฅ๊ธฐ๊ฐ ๊ฒฐ์ ํ ์์ธก๊ฐ์ ์ต์ข ๋ณดํ ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ์ ์ ํ๋ ๊ฒ
- ์ํํธ ๋ณดํ
- ๋ถ๋ฅ๊ธฐ๋ค์ ๋ ์ด๋ธ ๊ฐ ๊ฒฐ์ ํ๋ฅ ์ ๋ชจ๋ ๋ํ๊ณ ํ๊ท ํ์ฌ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ๋ ์ด๋ธ ๊ฐ์ ์ต์ข ๋ณดํ ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ์ ์
- ์์ธก ์ฑ๋ฅ์ด ์ข์ ์ผ๋ฐ์ ์ผ๋ก ๋ ๋ง์ด ์ฌ์ฉ๋จ
๋ฐฐ๊น bagging - ๋๋ค ํฌ๋ ์คํธ
: ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ๋ง๋ค์ด์ ๋ณดํ ์ผ๋ก ์ต์ข ๊ฒฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ
๋๋ค ํฌ๋ ์คํธ๋ ๋ฐ์ดํฐ๊ฐ ์ค์ฒฉ๋ ๊ฐ๋ณ ๋ฐ์ดํฐ ์ธํธ์ ๊ฒฐ์ ํธ๋ฆฌ ๋ถ๋ฅ๊ธฐ๋ฅผ ๊ฐ๊ฐ ์ ์ฉํ๋ ๊ฒ
- ์์๋ธ ์๊ณ ๋ฆฌ์ฆ ์ค ๋น๊ต์ ๋น ๋ฅธ ์ํ ์๋
- ๋ค์ํ ์์ญ์์ ๋์ ์์ธก ์ฑ๋ฅ
- ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐ์ ํธ๋ฆฌ๋ก, ์ฝ๊ณ ์ง๊ด์ ์ธ ์ฅ์
- ๋ถํธ์คํธ๋ํ bootstrapping
- ๊ฐ๋ณ ํธ๋ฆฌ๊ฐ ํ์ตํ๋ ๋ฐ์ดํฐ ์ธํธ๋ ์ ์ฒด ๋ฐ์ดํฐ์์ ์ผ๋ถ๊ฐ ์ค์ฒฉ๋๊ฒ ์ํ๋ง๋ ๋ฐ์ดํฐ ์ธํธ
- ์ฌ๋ฌ ๊ฐ์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ค์ฒฉ๋๊ฒ ๋ถ๋ฆฌํ๋ ๊ฒ
- ์ฌ์ดํท๋ฐ์ RandomForestClassifier ํด๋์ค๋ฅผ ํตํด ๋๋ค ํฌ๋ ์คํธ ๊ธฐ๋ฐ์ ๋ถ๋ฅ๋ฅผ ์ง์ํจ
- ํ์ดํผ ํ๋ผ๋ฏธํฐ ๋ฐ ํ๋
- n_estimators: ๋๋ค ํฌ๋ ์คํธ์์ ๊ฒฐ์ ํธ๋ฆฌ์ ๊ฐ์ ์ง์ . ๋ํดํธ 10๊ฐ. ๋๋ฆด์๋ก ํ์ต ์ํ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ.
- max_features: ๊ฒฐ์ ํธ๋ฆฌ์ ์ฌ์ฉ๋ max_features ํ๋ผ๋ฏธํฐ์ ๊ฐ์. ๋จ, ‘None’์ด ์๋ ‘auto’(=’sqrt’)์ ๊ฐ์
- max_depth, min_samples_leaf: ๊ฒฐ์ ํธ๋ฆฌ์์์ ๊ณผ์ ํฉ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ค ํฌ๋ ์คํธ์๋ ๋๊ฐ์ด ์ ์ฉ๋ ์ O
๋ถ์คํ boosting - GBM(Gradient Boosting Machine)
: ์ฌ๋ฌ ๊ฐ์ ์ฝํ ํ์ต๊ธฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ํ์ต—์์ธกํ๋ฉด์ ์๋ชป ์์ธกํ ๋ฐ์ดํฐ์ ๊ฐ์ค์น ๋ถ์ฌ๋ฅผ ํตํด ์ค๋ฅ๋ฅผ ๊ฐ์ ํด ๊ฐ๋ฉฐ ํ์ตํ๋ ๋ฐฉ์์ธ ๋ถ์คํ .
- ๋ํ์ ์ธ ๋ถ์คํ
์ ๊ตฌํ์ผ๋ก AdaBoost(Adaptive boosting)๊ณผ ๊ทธ๋๋์ธํธ ๋ถ์คํธ
- AdaBoost: ์ค๋ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ฉด์ ๋ถ์คํ
์ ์ํํ๋ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ
- ํผ์ฒ ๋ฐ์ดํฐ ์ธํธ์์ ํ์ฐจ๋ณ๋ก ์๋ชป๋ ์์ธก์ด ์กด์ฌํ๋ค๋ฉด ํด๋น ์ค๋ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด ์ฝํ ํ์ต๊ธฐ๊ฐ ์ฝ๊ฒ ๋ถ๋ฅํ ์ ์๋๋ก ํจ
- GBM: ์ ๋ฐ์ ์ผ๋ก ์ ์ฌํ๋, ๊ฐ์ค์น ์
๋ฐ์ดํธ๋ฅผ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด์ฉํจ.
- ์ค๋ฅ ๊ฐ = ์ค์ ๊ฐ - ์์ธก๊ฐ
- ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent): ์ค๋ฅ์์ ์ต์ํํ๋ ๋ฐฉํฅ์ฑ์ ๊ฐ์ง๊ณ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ค์น ๊ฐ์ ์ ๋ฐ์ดํธํ๋ ๊ฒ.
- ⇒ ๋ฐ๋ณต ์ํ์ ํตํด ์ค๋ฅ๋ฅผ ์ต์ํํ ์ ์๋๋ก ๊ฐ์ค์น์ ์ ๋ฐ์ดํธ ๊ฐ์ ๋์ถํ๋ ๊ธฐ๋ฒ
- ๋ถ๋ฅ์ ํ๊ท ๋ชจ๋ ๊ฐ๋ฅํจ
- ์ฌ์ดํท๋ฐ์ GradientBoostingClassifier ํด๋์ค ์ ๊ณต
- ์ํ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ , ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋ ๋ ธ๋ ฅ๋ ๋ ํ์ํจ
- ์ํ ์๊ฐ ๋ฌธ์ ๊ฐ ๊ฐ์ฅ ์ค์ํ๊ฒ ๊ทน๋ณตํด์ผ ํ ๋ฌธ์ ์
- ํ์ดํผ ํ๋ผ๋ฏธํฐ ๋ฐ ํ๋
- loss: ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์์ ์ฌ์ฉํ ๋น์ฉ ํจ์๋ฅผ ์ง์ . ๊ธฐ๋ณธ๊ฐ์ ‘deviance’
- learning_rate: GBM์ด ํ์ต์ ์งํํ ๋๋ง๋ค ์ ์ฉํ๋ ํ์ต๋ฅ . weak learner๊ฐ ์์ฐจ์ ์ผ๋ก ์ค๋ฅ ๊ฐ์ ๋ณด์ ํด ๋๊ฐ๋ ๋ฐ ์ ์ฉํ๋ ๊ณ์. ๊ธฐ๋ณธ๊ฐ์ 0.1์ด๋ฉฐ ๋๋ฌด ์์ ๊ฐ์ ์ ์ฉํ๋ฉด ์ ๋ฐ์ดํธ ๋๋ ๊ฐ์ด ์์์ ธ ์ต์ ์ค๋ฅ๊ฐ์ ์ฐพ์ ์์ธก ์ฑ๋ฅ์ด ๋์์ง ๊ฐ๋ฅ์ฑ์ด ๋์.
- n_estimators์ ์ํธ ๋ณด์์ ์ผ๋ก ์กฐํฉํด ์ฌ์ฉํจ.
- n_estimators: weak learner์ ๊ฐ์. ๊ฐ์๊ฐ ๋ง์์๋ก ์์ธก ์ฑ๋ฅ์ด ์ผ์ ์์ค๊น์ง๋ ์ข์์ง ์ ์์. ๊ทธ๋ฌ๋ ์ํ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ. ๊ธฐ๋ณธ๊ฐ์ 100.
- subsample: weak learner๊ฐ ํ์ต์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ์ํ๋ง ๋น์จ. ๊ธฐ๋ณธ๊ฐ์ 1๋ก, ์ ์ฒด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ค๋ ์๋ฏธ.
- max_features: ๊ฒฐ์ ํธ๋ฆฌ์ ์ฌ์ฉ๋ max_features ํ๋ผ๋ฏธํฐ์ ๊ฐ์. ๋จ, ‘None’์ด ์๋ ‘auto’(=’sqrt’)์ ๊ฐ์
- max_depth, min_samples_leaf: ๊ฒฐ์ ํธ๋ฆฌ์์์ ๊ณผ์ ํฉ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ค ํฌ๋ ์คํธ์๋ ๋๊ฐ์ด ์ ์ฉ๋ ์ O
- AdaBoost: ์ค๋ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ฉด์ ๋ถ์คํ
์ ์ํํ๋ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ
XGBoost(eXtra Gradient Boost)
: ํธ๋ฆฌ ๊ธฐ๋ฐ์ ์์๋ธ ํ์ต์์ ๊ฐ์ฅ ๊ฐ๊ด๋ฐ๊ณ ์๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋.
- GBM์ ๋จ์ ์ธ ๋๋ฆฐ ์ํ ์๊ฐ ๋ฐ ๊ณผ์ ํฉ ๊ท์ ๋ถ์ฌ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
- ๋ณ๋ ฌ CPU ํ๊ฒฝ์์ ๋ณ๋ ฌ ํ์ต์ด ๊ฐ๋ฅํด ๋น ๋ฅด๊ฒ ํ์ต์ ์๋ฃ ํ ์ ์์
- ์ฃผ์ ์ฅ์
- ๋ฐ์ด๋ ์์ธก ์ฑ๋ฅ
- GBM ๋๋น ๋น ๋ฅธ ์ํ ์๊ฐ
- ๊ณผ์ ํฉ ๊ท์
- ๋๋ฌด ๊ฐ์ง์น๊ธฐ
- ์์ฒด ๋ด์ฅ๋ ๊ต์ฐจ ๊ฒ์ฆ
- ๊ฒฐ์๊ฐ ์์ฒด ์ฒ๋ฆฌ
- ํต์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ C/C++๋ก ์์ฑ๋์ด ์์ผ๋, ํ์ด์ฌ ํจํค์ง ‘xgboost’๋ ์ ๊ณต
๐ฃ ์ค์ง์ ์ผ๋ก ์ฝ๋๋ฅผ ์์ฑํ๊ณ ํ๋ก๊ทธ๋จ์ ์คํํด๋ณด๋ ๊ณผ์ ์ ์ดํด๊ฐ ์ด๋ ค์ ๊น์ด ๊ณต๋ถํ์ง๋ ๋ชปํ์ด์ ๐
์ถ์ฒ: [ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋]