*Decision tree & Random forest
#Decision tree
-์์ฌ๊ฒฐ์ ๋๋ฌด
๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ๋ฒ์ผ๋ก, ๋ฐ์ดํฐ ๋ถ์์ ํ๊ณ ์์ธก ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
๋, ์์ฌ๊ฒฐ์ ๋๋ฌด ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋ฅ์ ํ๊ท ๋๊ฐ์ง ํํ๋ก ์ ๊ณต๋๋ค.
๋ชฉํ ๋ณ์๊ฐ ์ ํํ ์์ ๊ฐ์ ๊ฐ์ง๋ฉด ๋ถ๋ฅ๋ชฉ์ ์ ๋ถ๋ฅ ๋๋ฌด์ด๊ณ
์ค์๊ฐ์ ๊ฐ์ง๋ฉด ์์น์์ธก ๋ชฉ์ ์ ํ๊ท ๋๋ฌด๊ฐ ๋๋ค.
-์์ฌ๊ฒฐ์ ๋๋ฌด์ ํํ ๋ฐ ๊ตฌ์กฐ
์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ๋ ธ๋(Node)์ ๊ฐ์ง(Edge)๋ก ์ด๋ฃจ์ด์ง ํธ๋ฆฌ(Tree)ํํ์ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด
๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ๋๋๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ฉฐ, ๊ฐ ๋ ธ๋๋ ํ๋์ ๋ณ์๋ฅผ ์ ํํ๋ฉฐ, ์ ํ๋ ๋ณ์์ ๋ฐ๋ผ ํ์ ๋ ธ๋๊ฐ ๋ถ๋ฆฌ๋๋ค.
์ ์ผ ์์์ ๋ง๋๋ฅผ ๋ฟ๋ฆฌ ๋ง๋(root node)๋ผ ํ๊ณ ์ด๋ ๋ถ๋ฅ ๋์์ด ๋๋ ๋ชจ๋ ์๋ฃ์ง๋จ์ ํฌํจํ๋ค.
์์ ๋ง๋๊ฐ ํ์ ๋ง๋๋ก ๋ถ๊ธฐ๋ ๋, ์์ ๋ง๋๋ฅผ ๋ถ๋ชจ ๋ง๋(parent node) ๋๋ ๋ถ๋ชจ๋
ธ๋๋ผ ํ๊ณ ํ์ ๋ง๋๋ฅผ ์์๋ง๋(child node) ๋๋ ์์๋
ธ๋๋ผ ํ๋ฉฐ ๋ ์ด์ ๋ถ๊ธฐ๋์ง ์๋ ๋ง๋๋ฅผ ์ต์ข
๋ง๋(terminal node) ๋ผ ํ๋ค.
-๊ฐ ๋ ธ๋์ ๋ถ๋ฆฌ ๊ธฐ์ค์ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ
๋ํ์ ์ธ ๋ฐฉ๋ฒ์ CART (Classification and Regression Tree) ๋ฑ์ด ์๊ณ ,
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋ ธ๋ ๋ถ๋ฆฌ ๊ธฐ์ค์ ๊ฒฐ์ ํ๋๋ฐ ์ฌ์ฉ๋๋ ์งํ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์กฐ ๋ฑ์์ ์ฐจ์ด๊ฐ ์๋ค.
-๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ์ ๋ถ๋ฆฌ๋์๋์ง ํ๊ฐํ๋ ์งํ: ๋ถ์๋
๋ ธ๋์ ์ฌ๋ฌ ๋ถ๋ฅ๊ฐ ์์ฌ ์์์๋ก ๋๊ณ , ๋ ธ๋์ ํ๋์ ๋ถ๋ฅ๋ง ์กด์ฌํ ๋ ๊ฐ์ฅ ๋ฎ์์ง๋ค.
-์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋ถ์๊ณผ์
1) ๋ชฉํ ๋ณ์์ ๊ด๊ณ๊ฐ ์๋ ์ค๋ช ๋ณ์๋ค์ ์ ํ
2) ๋ถ์๋ชฉ์ ๊ณผ ์๋ฃ์ ๊ตฌ์กฐ์ ๋ฐ๋ผ ์ ์ ํ ๋ถ๋ฆฌ๊ธฐ์ค๊ณผ ์ ์ง ๊ท์น์ ์ ํ์ฌ ์์ฌ๊ฒฐ์ ๋๋ฌด ์์ฑ
3) ๋ถ์ ์ ํ ๋๋ญ๊ฐ์ง๋ ์ ๊ฑฐ
4) ์ด์ต,์ํ,๋น์ฉ ๋ฑ์ ๊ณ ๋ คํ์ฌ ๋ชจํํ๊ฐ
5) ๋ถ๋ฅ ๋ฐ ์์ธก
#Random forest
-Random forest (์์ฌ๊ฒฐ์ ๋๋ฌด์ ์ค๋ฒํผํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํจ)
ํ๊ท ๋ฐ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ์ฌ์ฉํ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ด๋ค.
:์ฒ์ ๋๋ฌด๋ก ๊ตฌ์ฑ๋์ด์์ > ์๋ง์ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ๊ฐ ๋ชจ์ฌ์ ์์ฑ๋๋ค.
์ฌ๋ฌ๊ฐ์ง ๊ฒฐ๊ณผ๋ฅผ ํฉ์น๋ ๋ฐฉ์์ธ ์์๋ธ ๊ธฐ๋ฒ์ด๋ค.
ํ๋์ ๊ฑฐ๋ํ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋๋ ๊ฒ์ด ์๋๋ผ ์ฌ๋ฌ ๊ฐ์ ์์ฌ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋๋ ๋ฐฉ์์ผ๋ก ๊ตฌ์ฑ๋๋ค.
ํ๋ จ์ ํตํด ๊ตฌ์ฑํด ๋์ ๋ค์์ ๋๋ฌด๋ค๋ก๋ถํฐ ๋ถ๋ฅ๊ฒฐ๊ณผ๋ฅผ ์ทจํฉํด์ ๊ฒฐ๋ก ์ ์ป๋๋ค.
์ฌ๋ฌ ๊ฒฐ์ ํธ๋ฆฌ๊ฐ ๋ด๋ฆฐ ์์ธก ๊ฐ๋ค ์ค, ๊ฐ์ฅ ๋ง์ด ๋์จ ๊ฐ์ ์ต์ข ์์ธก๊ฐ์ผ๋ก ์ ํฉ๋๋ค.
(1๋ช ์ ๋๋ํ ์ฌ๋๋ณด๋ค 100๋ช ์ ํ๋ฒํ ์ฌ๋)
-์ค๋ฒํผํ (feat. ๊ธฐ์ธ์ด์ง ์ด๋์ฅ)
:๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ค์ ํ์ต ๋ฐ์ดํฐ์ ๋๋ฌด ๊ฐ๊น๊ฒ ๋ง์ท์๋ ๋ฐ์ํ๋ ํ์
ํ์ต๋ฐ์ดํฐ๊ฐ ์ค์ ์ธ๊ณ์์ ๋ํ๋๋ ๋ฐฉ์๊ณผ ์์ ํ ๋๊ฐ์ ๊ฑฐ๋ผ๊ณ ๊ฐ์ ํ๋ ๊ฒ์ด๋ค. ํ์ต๋ฐ์ดํฐ์ ์ํ ๊ฐ๊ฐ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ค์ ์๋ฒฝํ๊ฒ ์ค๋ช ํ๊ธฐ์ํ ๋ชจ๋ธ์ ์์ฑํ๋ค.
-์์๋ธ
:์ฃผ์ด์ง ์๋ฃ๋ก๋ถํฐ ์ฌ๋ฌ ๊ฐ์ ์์ธก๋ชจํ๋ค์ ๋ง๋ ํ ์์ธก๋ชจํ๋ค์ ์กฐํฉํ์ฌ
ํ๋์ ์ต์ข ์์ธก ๋ชจํ์ ๋ง๋๋ ๋ฐฉ๋ฒ
:Test๋ฐ์ดํฐ์ ๋ํด ๋ค์ํ ์๊ฒฌ(์์ธก๊ฐ)์ ์๋ ดํ๊ธฐ ์ํด overfitting์ด ์ ๋๋ ๋ชจ๋ธ(์์ฌ๊ฒฐ์ ํธ๋ฆฌ)์
๊ธฐ๋ณธ์ ์ผ๋ก ์ฌ์ฉ(๋ถ์คํ , ๋๋คํฌ๋ ์คํธ)
-๋ฐฐ๊น
์ต์ข ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์์๋ธ ๊ธฐ๋ฒ์ค ํ๋์ธ ๋ฐฐ๊น ์ ์ฌ์ฉํ๋ค.
๋ฐฐ๊น ์ด๋ผ๋ ํ๋ก์ธ์ค๋ฅผ ํตํด์ ๋๋คํฌ๋ ์คํธ์ ๊ฐ ๋๋ฌด๋ฅผ ๋ง๋ ๋ค.
๋ฐฐ๊น ์ ํ์ต ๋ฐ์ดํฐ ์ธํธ์์ ์์๋ก ํ์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ถ์ถํ์ฌ ์์ฑํ๋ ๊ฒ์ด๋ค.
์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ๋ง๋ค์ง๋ง ์ด ๊ณผ์ ์์ ๊ฐ๊ฐ์ ๋ชจ๋ธ๋ค์ ์๋ก์ ์ํฅ์ ๋ฐ์ง ์๋๋ค.
์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ๊ฐ ๋ชจ๋ธ๋ณ๋ก ์์์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์์ฑํ๋๋ฐ
์ด ๋ ๋ณต์ ์ถ์ถ(ํ๋๋ฅผ ๋ฝ์๋๋ง๋ค ๋ฝ์๊ฑธ ๋ค์ ๋ฃ์ด์ ๋ค์๋ฒ ๋ฝ์๋ ๋ค์ ํ๋ณด๊ฐ ๋ ์ ์๊ฒํจ)์ ์ฌ์ฉํ์ฌ ๋ฌด์์๋ก N๊ฐ๋ฅผ ์ ํํ์ฌ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์์ฑํฉ๋๋ค.
ex) 1000๊ฐ์ ํ์ด ์๋ ๊ฐ๋ฐฉ์์ ์์๋ก 100๊ฐ๋ฅผ ๋ฝ์ ์ฒซ ๋ฒ์งธ ํธ๋ฆฌ๋ฅผ ๋ง๋ค๊ณ , ๊ทธ 100๊ฐ์ ํ์ ๋ค์ ๊ฐ๋ฐฉ์ ๋ฃ๋๋ค. ์ด์ ๊ฐ์ ํ๋์ ๋ฐ๋ณตํ๋ค.
-๋ฐฐ๊น ์์ฑ
ํธ๋ฆฌ๋ฅผ ๋ง๋ค ๋ ์ฌ์ฉ๋ ์์ฑ๋ค์ ์ ํํจ์ผ๋ก์จ ๊ฐ ๋๋ฌด์ ๋ค์์ฑ์ ์ค์ผํ๋ค.
๋ชจ๋ ์์ฑ์ ์ดํด๋ณด๊ณ ์ ๋ณด ํ๋๋์ด ๊ฐ์ฅ ๋ง์ ์์ฑ์ ์ ํํ์ฌ
๊ทธ๊ฑฐ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ๋ค. ๊ทธ๋ฌ๋ ์ด์ ๋ ๊ฐ ๋ถ์ผ์์ ์ ์ฒด์์ฑ๋ค์ค ์ผ๋ถ๋ง ๊ณ ๋ คํ์ฌ ํธ๋ฆฌ๋ฅผ
์์ฑํ๋ ์ ๋ต์ด๋ค.
ex) ์ด 25๊ฐ์ ์์ฑ์ด ์๋๋ฐ ๊ทธ์ค 5๊ฐ์ ์์ฑ๋ง ๋ฝ์์ ์ดํด๋ณธ ํ ์ ๋ณดํ๋๋์ด ๋์๊ฑธ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ๋ค. ๊ทธ ํ ๋ค์ ๋จ๊ณ์์๋ ๋ค์ ์์๋ก 5๊ฐ๋ฅผ ์ ํํด ์ดํด๋ณธ๋ค.
๊ฒฝํ์ ์ผ๋ก๋ ์ ์ฒด์์ฑ ๊ฐ์์ ์ ๊ณฑ๊ทผ๋งํผ ์ ํํ๋๊ฒ ์ข๋ค๊ณ ํ๋ค.
โ
๋๋ค ํฌ๋ ์คํธ๋ฅผ ์ฌ์ฉํด์ ํ๊ณ ์ํ๋ ๋ฌธ์ ๊ฐ ๋ถ๋ฅ์ธ ๊ฒฝ์ฐ์๋๋ค์์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ผ ์ต์ข ๊ฒฐ์ ์ด๋๊ณ
ํ๊ท์ธ ๊ฒฝ์ฐ์๋ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ์ ๊ฒฐ๊ณผ๋ค์ ํ๊ท ๋ด์ด์ ์ต์ข ๊ฒฐ์ ์ ์ ํฉ๋๋ค.
-์ฅ์
:Classification(๋ถ๋ฅ) ๋ฐ Regression(ํ๊ท) ๋ฌธ์ ์ ๋ชจ๋ ์ฌ์ฉ ๊ฐ๋ฅ
:Missing value(๊ฒฐ์ธก์น)๋ฅผ ๋ค๋ฃจ๊ธฐ ์ฌ์
:๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ํจ๊ณผ์
:๋ชจ๋ธ์ ๋
ธ์ด์ฆ๋ฅผ ์ฌํ์ํค๋ Overfitting(์ค๋ฒํผํ
) ๋ฌธ์ ๋ฅผ ํํผํ์ฌ, ๋ชจ๋ธ ์ ํ๋๋ฅผ ํฅ์์ํด
:Classification ๋ชจ๋ธ์์ ์๋์ ์ผ๋ก ์ค์ํ ๋ณ์๋ฅผ ์ ์ ๋ฐ Ranking ๊ฐ๋ฅ
[์ถ์ฒ]
R๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ๋ถ์ #19 - ์์ฌ๊ฒฐ์ ๋๋ฌด๋ชจํ : ๋ค์ด๋ฒ ํฌ์คํธ (naver.com)
[ML]์์ฌ๊ฒฐ์ ๋๋ฌด | decision tre.. : ๋ค์ด๋ฒ๋ธ๋ก๊ทธ (naver.com)
๊ธฐ๊ณ ํ์ต: ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ์ฌ๊ฒํ | ์บํผํจ ํ ํฌ๋๋ก์ง ๋ํ๊ต (captechu.edu)
์ง๋ ํ์ต ๋ถ๋ฅ - ๋๋ค ํฌ๋ ์คํธ : ๋ค์ด๋ฒ ๋ธ๋ก๊ทธ (naver.com)
๋๋ค ํฌ๋ ์คํธ(Random Forest) ์ฝ๊ฒ ์ดํดํ๊ธฐ - ์๋ฌดํผ ์๋ผ๋ฐธ (hleecaster.com)
[ML] ๋๋ค ํฌ๋ ์คํธ(Random Forest)๋? (tistory.com)
[๋ฐ์ดํฐ๋ง์ด๋] 3. ์์๋ธ ๋ถ์ (๋ฐฐ๊น
, ๋ถ.. : ๋ค์ด๋ฒ๋ธ๋ก๊ทธ (naver.com)
'๐ก WIDA > DACON ๋ถ๋ฅ-ํ๊ท' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DACON/์กฐ์์] ๋ถ๋ฅ ๋ชจ๋ธ ์์๋ณด๊ธฐ (0) | 2023.03.24 |
---|---|
[DACON/์ต๋ค์] ๋ถ๋ฅ ๋ชจ๋ธ ์์๋ณด๊ธฐ (0) | 2023.03.23 |
[DACON/๊น๊ฒฝ์] ๋ถ๋ฅ ๋ชจ๋ธ ์์๋ณด๊ธฐ (0) | 2023.03.23 |
[DACON/๊น๋ฏผํ] ๋ถ๋ฅ ๋ชจ๋ธ ์์๋ณด๊ธฐ (1) | 2023.03.22 |
[DACON/๊น๊ท๋ฆฌ] ์ฒ์ฒด ์ ํ ๋ถ๋ฅ ๋ํ๋ฅผ ์ํ ๋๋ฉ์ธ ์ง์ ์์๋ณด๊ธฐ (0) | 2023.03.17 |