Dacon ์ฒ์ฒด ์ ํ ๋ถ๋ฅ ๊ฒฝ์ง๋ํ
๋ํ ๊ฐ์
์ฒ์ฒด ๋ฐ์ดํฐ์ธ ‘์ฌ๋ก ๋์งํธ ์ฒ์ฒด ๊ด์ธก(SDSS)’ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์๋ก์ด ์ฒ์ฒด ์ ํ ๋ถ๋ฅ๋ฅผ ์ํ ์์ธก ๋ถ๋ฅ ๋ชจ๋ธ์ ์์ฑ.
์ฒ์ฒด๋ฅผ ๊ด์ธกํ์ฌ ์ธก์ ๋ 21๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ์ด๋ฏธ ์ ์๋ 19๊ฐ์ ์ฒ์ฒด ์ ํ์ ๋ถ๋ฅํ๋ ๋ํ
- 5๊ฐ ์ข ๋ฅ์ ์ฒ์ฒด ๊ด์ธก ๋ฐ์ดํฐ → ๊ท๋ชจ(magnitude) ๋ฐ์ดํฐ๋ 5๊ฐ์ ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง
๊ธฐ๋ณธ์ง์
- ์ฒ์ฒด์ ์ข
๋ฅ (์ถ์ฒ: ๐LINK)
- ํญ์ฑ star
DEF) ํต์ตํฉ ๋ฐ์์ ํตํด ์ค์ค๋ก ๋น์ ๋ด๋ ์ฒ์ฒด - ํ์ฑ planet
DEF) ํญ์ฑ์ ์ค์ฌ์ผ๋ก ๊ณต์ ํ๊ณ ์๋ ์ฒ์ฒด
- ๊ด์ธกํ๊ธฐ ์ฌ์ด ํธ
- ๋ฐ๊ฒ ๋น๋๋ ๊ฒ์ด ๋ง์ผ๋ฉฐ ์ก์์ผ๋ก ์ฐพ๊ธฐ๋ ์ฝ๋ค
- ์๊ตฌ๊ฒฝ ๋ง์๊ฒฝ์ผ๋ก๋ ํํ๋ฅผ ์ฝ๊ฒ ๊ด์ฐฐํ ์ ์์
- ์์ฑ satellite
DEF) ํ์ฑ์ ๊ณต์ ํ๊ณ ์๋ ์ฒ์ฒด
- ํน์ง์ด ๋งค์ฐ ๋ค์ํด ํ์๊ณ ๋ด์์ ์ฃผ๋ชฉํ ๋งํ ์ฒ์ฒด๋ค
- ์ฐ๊ฐ์ฑ๋จ open cluster
DEF) ์ฐ๊ฐ๋์ด์๋ ๋ณ์ ๋ฌด๋ฆฌ
- ๋น๊ต์ ์ ์ ๋ณ๋ค๋ก ๊ตฌ์ฑ๋์ด ์์
- ์ก์ ๊ด์ธก์ด ๊ฐ๋ฅํ๊ฑฐ๋ ์๊ตฌ๊ฒฝ ์์๊ฒฝ์ผ๋ก ์ฆ๊ธธ ์ ์์
- ๊ตฌ์์ฑ๋จ globular cluster
DEF) ํญ์ฑ๋ค์ด ์ง๋์ค์ฌ์ ๊ธฐ์ค์ผ๋ก ๊ตฌ์ ํํ๋ก ๋ชจ์ฌ์๋ ์ง๋จ
- ๋์ด๊ฐ ๋ง์ ๋ณ๋ค๋ก ๊ตฌ์ฑ๋์ด ์์
- ๋ฐ์์์ธ ๋ถ๋ช ํ
- ์ข์ ์์ญ ์์ ๋ชจ์ฌ ์์ด ๋ฐฐ์จ์ด ๋์ ์ฒ์ฒด๋ง์๊ฒฝ์ผ๋ก ๊ด์ธกํด์ผ ํจ
- ์ํ galaxy
DEF) ๋งค์ฐ ๋ง์ ํญ์ฑ์ด ๋ชจ์ฌ ๋ง๋ค์ด์ง ๊ฒ
- ์ง๋์ค์ฌ์ ๊ธฐ์ค์ผ๋ก ์ํธ ์ธ๋ ฅ์ ์ํด ๋ถ์กํ์๋ ํญ์ฑ๋ค๋ก ๊ตฌ์ฑ๋จ
- ์ํ ์์ ๊ตฌ์์ฑ๋จ์ด๋ ์ฑ์ด ๋ฑ๋ ํจ๊ป ํฌํจ๋์ด ์์
- ์ฑ์ด nebular
DEF) ๊ฐ์ค๋ ์ฑ๊ฐ๋ฌผ์ง์ด ๋ฐ๋ ๋๊ฒ ๋ชจ์ฌ์๋ ์ง์ญ
- ์ฑ๋ถ์ ๋ฐ๋ผ ๋ค๋ฅธ ์, ์์ฑ์์ธ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ชจ์์ ๋ฐ
- ๋ฐ๋๊ฐ ๋์ ์ง์ญ์์๋ ํญ์ฑ์ด ์์ฑ๋๊ธฐ๋ ํจ
- ํญ์ฑ star
- ํญ์ฑ๋ถ๋ฅ (์ถ์ฒ: ๐LINK)⇒ ์ฃผ๋ก ํ๋ฉด์จ๋์ ๋ถ๊ดํ์ ํน์ง ๋ ๊ฐ์ง์ ์ํด ํญ์ฑ์ ๋ถ๋ฅํ๋ค.
: ํญ์ฑ๋ค์ ํน์ ๊ธฐ์ค์ ๋ฐ๋ผ ๊ตฌ๋ณํ๋ ๊ฒ- ํญ์ฑ๋ถ๊ดํ์ ๋ฐ์ ์ผ๋ก ํก์์ ์ ์์์ ๋ฐ๋ผ ๊ฑฐ๋ฆฌ์ ๊ด๊ณ์์ด ํญ์ฑ์ ๋ถ๋ฅํ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ก๋ค.
- QSO ํ์ด์ฌ (์ถ์ฒ: Link)
: ์ผ๋ฐ์ ์ธ ์ํ๋ณด๋ค๋ ํจ์ฌ ๋ฐ์ ํ๋์ ๋ณด์ด๋ ํ๋์ํํต์ ํ ์ข ๋ฅ
- ์ด๋์ง๋ ๋ธ๋ํ ์ฒ์ฒด์ด๋ฉฐ, ์ง๊ตฌ๋ก๋ถํฐ ๋๋ฌด ๋ฉ์ด ๊ด์ธก์ด ์ฝ์ง ์์
- ํ์ด์ฌ์ ๊ด๋๊ณก์ ์ ์ฌ๊ตฌ์ฑํ์ฌ ์ค๋ ฅ๋ ์ฆ ํ์์ ๊ฒช์ ํ์ด์ฌ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ด ๊ด์ธก๋ฐฉ๋ฒ
- SDSS(Sloan Digital Sky Survey) (์ถ์ฒ: Link)
- ๋๊ท๋ชจ ๋ค์ค ๋ถ๊ด ์์ํ ๋ฐ ๋ถ๊ดํ์ ์ ์ํธ์ด ํ์ฌ ๊ณํ
- ํน๋ณํ ์ฒ์ฒด๋ฅผ ์ง๋ชฉํ์ง์๊ณ ์ต๋ํ ๋์ ํ๋ ์์ญ์ ๋ฐ์ดํฐ๋ฅผ ์ป์ด๋ด๋ ๋ฐฉ์
- ์ฝ 5์ต ๊ฐ์ ์ฒ์ฒด์ ๋ํ ์ธก๊ด ์๋ฃ์ 300๋ง ๊ฐ ์ด์์ ์ฒ์ฒด์ ์คํํธ๋ผ์ ์์งํจ
- ์ฃผ์ ์ํ ํ๋ณธ์ ์ ์ํธ์ด ์ค๊ฐ๊ฐ์ด z = 0.1
- ๋ฐ์ ์ ์ ์ํ์ ๋ํ์ฌ ์ ์ํธ์ด z = 0.7
- ํ์ด์ฌ์ ๋ํ์ฌ ์ ์ํธ์ด z = 5
- ๊ด์ธก
- ์ ์ฉ์ผ๋ก ๊ตฌ๋น๋ 2.5 m ๊ด๊ฐ ๊ดํ๋ง์๊ฒฝ์ ์ฌ์ฉํ๊ณ ์์
- ํํฐ ๋ค์ฏ๊ฐ(u, g, r, i, z)๋ก ๊ตฌ์ฑ๋ ์ธก๊ด๊ณ๋ฅผ ์ฌ์ฉํ์ฌ ์ดฌ์๋จ
- ์ด ์ฌ์ง๋ค์ ์ ์ ํน์ ์ํ์ ๊ฐ์ด ํผ์ง์์ผ๋ก ๋ณด์ด๋์ง, CCD๊ฐ ๊ฒ์ถํ๋ ๋ฐ๊ธฐ๊ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ฌ๋ฌ ์ข ๋ฅ์ ๋ฐ๊ธฐ ๋ฑ๊ธ๊ณผ ์ฐ๊ด๋๋๊ฐ์ ๋ฐ๋ฅธ ๋ค์ํ parameter๋ค์ ๋ชฉ๋ก ์์ฑ์๋ ์ฐ์ธ๋ค๊ณ ํ๋ค.
- ๊ฐ ๊ดํ ํํฐ๋ ์์์ ๋ฐ๋ผ ํ๊ท ์ฌ๊ณผ ํ์ฅ์ด 355.1, 468.6, 616.5, 748.1, 893.1 nm
- ๋ถ๊ด์นด๋ฉ๋ผ๋ ์๋ฃจ๋ฏธ๋ํ์ ๋ซ๋ ค ์๋ ๊ตฌ๋ฉ์ ํตํด ๋ณด์ด๋ ๊ฐ ํ์ ์ ๊ด์ฌ์ ๋ฅผ ๊ณต๊ธํ์ฌ ์๋
- ์ฐธ๊ณ : SDSS parameter ๋ฐ๊ธฐ (3) Object Crossid ์ด์ฉํ๊ธฐ
Data ํบ์๋ณด๊ธฐ
โ ํญ์ฑ ์ข ๋ฅ
- QSO- ํ์ด์ฌ
- STAR_RED_DWARF - ์ ์์์ฑ
- STAR_BHB - ์ํ๊ฑฐ์ด์ฑ
- STAR_CATY_VAR - ๊ฒฉ๋ณ๋ณ๊ด์ฑ
- SERENDIP_RED, SERENDIP_BLUE, SERENDIP_DISTANT : ํญ์ฑ ๊ตฌ์ญ ์ธ๋ถ์ ๋์ธ ์ฒ์ฒด
- SERENDIPITY_FIRST : ์ฒซ๋ฒ์งธ ๊ด์ธก์์ ํ์ด์ฌ๋ก ๋ถ๋ฅ๋์์ง๋ง, ์ด์ด์ง ๊ด์ธก์์๋ ๋ ํ๋ฆฟํ ์ฒ์ฒด
- SERENDIPITY_MANUAL : ์๋์ผ๋ก ๊ด์ธก๋ ์ฒ์ฒด
- sky : ๋น ํ๋
- ROSAT_D : X-์ ํ์ฅ๋์์ ๊ด์ธกํ ์ฒ์ฒด์ด์ง๋ง, SDSS ๋ง์๊ฒฝ์์๋ ๊ด์ธก๋๋ ์ฒ์ฒด
โ ์ํ๋ฒณ(u, g, r, i, z)์ ์๋ฏธ
์ํ๋ฒณ์ ํ์ฅ๋๋ฅผ ์๋ฏธํ๋ค๊ณ ํ๋ฉฐ ๊ฐ๊ฐ ์๋์ ๊ฐ์ ์๋ฏธ๋ฅผ ์ง๋๊ณ ์๋ค.
u : Ultraviolet
g : Green
r : Red
i : Near Infrared
z : Infrared
[๋ฐ์ด์ฝ๋ต๋ณ์์ฒญ]๋ฐ์ดํฐ ๋ผ๋ฒจ์๋ํ ์ถ๊ฐ์ค๋ช ๋ถํ๋๋ฆฝ๋๋ค.
๋ฐ์ดํฐ์ฌ์ด์ธ์ค Data Science
๋ถ๋ฅ์ ํ๊ท ๋ชจ๋ธ์ ๋ํด ์ดํดํ๋ ค๋ฉด ๋จผ์ ๋ฐ์ดํฐ์ฌ์ด์ธ์คdatascience์ ํฐ ํ๋ถํฐ ์์์ผ ํ ํ์์ฑ์ ๋๊ผ๋ค.
๋น ๋ฐ์ดํฐ
์ต๊ทผ ์ป์ ์ ์๊ฒ ๋ ๋ฐ์ดํฐ์ ์ด์นญ์ผ๋ก์ 5V๋ผ๊ณ ๋ถ๋ฆฌ๋ 5๊ฐ์ง ํน์ง์ ๋ค๋ค.
- ํฌ๊ธฐ Volume
- ์๋ Velocity
- ๋ค์์ฑ Variety
- ์ ํ์ฑ Veracity
- ๊ฐ์น Value
์ธ๊ณต์ง๋ฅ๊ณผ ๋ฐ์ดํฐ ๊ณผํ์ ์ ์ ์ ๋จธ์ ๋ฌ๋์ผ๋ก, ์๋ํํ ๋ถ๋ถ์ ์๋ํํ๊ณ ์ ์ฒด์ ํ๋ฆ์ ์ ์ดํ๋ ๊ฒ์ด ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ์ ์ ๋ฌด๋ผ๊ณ ํ ์ ์๊ฒ ๋ค.
ํ์ดํ๋ผ์ธ
- ๋ฌด์์ ํ ๊ฒ์ธ๊ฐ [๊ฐ์ค์๋ฆฝ]
- ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๊ฒ์ธ๊ฐ
- ํ์ํ ์ด๋ก ๊ณผ ์์, ๊ธฐ์ ์ ์กฐํฉํด ํ๋ก๊ทธ๋จ์ผ๋ก ๊ตฌํ
- ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ๊ฐ์ ์ ๋ฐ๋ณต. [plan-do-check-action]
- ๋ฐ์ดํฐ ์์ง๋ฒ(1)
Open data: ๋๊ตฌ๋ ๋๋ฆฌ ํ์ฉํ ์ ์๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด ๊ณต๊ฐํ ๊ฒ
- ๊ฐ๊ตญ ์ ๋ถ๊ฐ ์ ๊ณตํ๋ ์ฌํ ์ ๋ฐ ํต๊ณ ๋ฐ์ดํฐ
- ์ํคํผ๋์ ๋ฑ ๊ณต๋ ํ๋ ฅ์ผ๋ก ๋ชจ์ ์ ๋ณด๋ฅผ ๋ฐ์ดํฐ๋ฒ ์ด์คํ ํ ๊ฒ
- ๋ฐ์ดํฐ ๊ณผํ ๋ธ๋ก๊ทธ๊ฐ ๊ณต๊ฐํ ๋ฐ์ดํฐ
- ์ผ๊ธ ๋ฐ์ดํฐ
- DeepAnalystics
- etc.
- ๋ฐ์ดํฐ ์์ง๋ฒ(2)
Web API: Application Programming Interface; ์๋น์ค ์ ๊ณต์๊ฐ ์ํํธ์จ์ด ์ผ๋ถ๋ ๋ณด์ ์ค์ธ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฅธ ์ฌ์ฉ์๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋๋ก ๊ณต๊ฐํ๋ ์๋น์ค
- ๊ตญํ๋์๊ด
- ๋ผ์ฟ ํ
- ๊ตฌ๋ฃจ๋๋น
- New York Times
- Associated Press
- ๋ฐ์ดํฐ ์์ง๋ฒ(3)
์น ์คํฌ๋ ์ดํ: ์น์ฌ์ดํธ์ ์๋ ์ ๋ณด๋ฅผ ์์งํ๋ ํ์
- ์์ง ๊ฐ๋ฅ ์ฌ๋ถ → page address/robos.txt๋ก ํ์ธ
๋จธ์ ๋ฌ๋ Machine Learning
DEF) ์ปดํจํฐ๊ณผํ์์ ์ปดํจํฐ๋ฅผ ์ ๊ทน์ ์ผ๋ก ์ด์ฉํ ํต๊ณํ
ํ์ต ์๋๋ฆฌ์ค(=๋จธ์ ๋ฌ๋์์์ ๋ฌธ์ ์ค์ )
์ง๋ํ์ต
- ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ถ๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ธํธ๋ก ๋์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๊ฒ
- ex. ์ฃผํ ๊ฐ๊ฒฉ์ ํน์ ๋(์ค๋ช ๋ณ์)์ ์ด์ฉํด ํ๊ท๋ชจ๋ธ๋ก ์์ธกํ๋ ๋ฌธ์ , ํ๊ท, ๋ถ๋ฅ, ๋ญํน์ด๋ฐ ์์์ ์ค์ ํ์ ๋, ์ง๋ํ์ต์ ๋ชฉ์ ์ f๋ฅผ ์ถ์ ํ๋ ๊ฒ.
- Y = f(X) + ์ค์ฐจํญ
- f๋ฅผ ์ถ์ ํจ์ผ๋ก์จ
⇒ ์ฃผํ๊ฐ๊ฒฉ ์์ธก ๊ฐ๋ฅ
⇒ ๋ฐ์ดํฐ ํด์ - ํ์ต์ฉ ๋ฐ์ดํฐ ์งํฉ(training data set)์ ์ฌ๋์ด ๋ง๋ค์ด ์ค์ผ ํจ
๋น์ง๋ํ์ต
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ง ์ฃผ์ด์ง ์ํฉ
- ์ ๋ ฅ/์ถ๋ ฅ์ด ๊ตฌ๋ถ๋์ง ์๋ ๋จ์ํ “๋ฐ์ดํฐ๋ค์ ๊ด๊ณ”์์ ํน์ ํ ๊ท์น์ ์ฐพ์๋ด๋ ๊ฒ
- ex. ํด๋ฌ์คํฐ๋ง, ์ฐจ์์ญ๊ฐ, ํ๋ ฅ๋ณด์, ๋ค์์ฒดํ์ต
์ค์ง๋ํ์ต
- ์์ชฝ ์ธก๋ฉด์ ํฌํจํจ. ์ผ๋ถ ๋ฐ์ดํฐ์๋ ์ถ๋ ฅ ๋ฐ์ดํฐO, ๋๋จธ์ง๋ X.
- ex. SNS ๋ฑ์์ ์์ง๋ ์ฐํธ ๊ด๊ณ ๋คํธ์ํฌ์ ์ผ๋ถ ์ฑ๋ณ์ด ํ๋ช ๋ ๋ฐ์ดํฐ ์ธํธ๊ฐ ์๋ ๊ฒฝ์ฐ
์์ธก
DEF) ์ซ์, ๋ฌธ์, ์ด๋ฏธ์ง, ์์ฑ, ์์ ๋ฑ์ ์ฌ๋ฌ ๊ฐ์ง ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฃผ๋ฉด, ๋ฐ์ดํฐ ๋ถ์์ ๊ฒฐ๊ณผ๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ๋ฅผ ์ถ๋ ฅํ๋ ๋ถ์ ๋ฐฉ๋ฒ
๐ examples
- ๋ถ๋์ฐ์ ์์น, ์ฃผ๊ฑฐํ๊ฒฝ, ๊ฑด์ถ์ฐ๋ ๋ฑ์ ์ฃผ๋ฉด ํด๋น ๋ถ๋์ฐ์ ๊ฐ์น๋ฅผ ์ถ์
- ๊ฝ์์ ๊ธธ์ด์ ๋๋น ๋ฑ ์๋ฌผ์ ์ธํ์ ํน์ง์ ์ฃผ๋ฉด ํด๋นํ๋ ์๋ฌผ์ ์ข
์ ์์๋ด๊ธฐ
- ์ผ๊ตด ์ฌ์ง์ ์ฃผ๋ฉด ํด๋นํ๋ ์ฌ๋์ ์ด๋ฆ์ ์ถ๋ ฅ
- ํ์ฌ ๋ฐ๋๋์ ์์น๋ค์ ์ฃผ๋ฉด ๋ค์ ๋ฐ๋๋์ ์์น ์ง์
- ๋ฐ์ดํฐ ๋ถ์ ์์ ์ค ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์ ํ ์ค ํ๋
- ๋ฐ์ดํฐ ๋ถ์์์ ‘์์ธก’์ ์๊ฐ์์ผ๋ก ๋ฏธ๋์ ์๋ฏธ๋ ํฌํจX
- ์ถ๋ ฅ๋ฐ์ดํฐ: ์ถ์ ํ๊ฑฐ๋ ์์ธกํ๊ณ ์ ํ๋ ๋ชฉ์ ๋ฐ์ดํฐ๋ก ๋ณดํต ์ํ๋ฒณ ‘Y’๋ก ํ๊ธฐ ← ์ข ์๋ณ์, ๋ผ๋ฒจ, ๋ ์ด๋ธ… ์ ๋ ฅ๋ฐ์ดํฐ: ๋ถ์์ ๊ธฐ๋ฐ์ด ๋๋ ๋ฐ์ดํฐ๋ก ๋ณดํต ์ํ๋ฒณ ‘X’๋ก ํ๊ธฐ ← ๋ ๋ฆฝ๋ณ์, ํน์ง, ์ค๋ช ๋ณ์…
- ๋ณดํต ์ปดํจํฐ๊ฐ ๋ค๋ฃจ๋ ๋ฐ์ดํฐ๋ ์ซ์ํ ๋ฐ์ดํฐ์ด๋, ์นดํ
๊ณ ๋ฆฌ๊ฐ๋ ๋ค๋ฃฐ ์ ์๋ ๋ฐ์ดํฐ ์ค ํ๋์
- ์นดํ
๊ณ ๋ฆฌํ(๋ฒ์ฃผํ)
- ์ซ์ ๊ฐ๊ณผ ๋ฌ๋ฆฌ ์ฃผ๋ก ๊ธฐํธ๋ก ํ์๋๋ฉฐ ๋น์ฐ์์
- ๋ ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์ ๋ ์ด๋ค์ ํฌ๊ธฐ๋ ๊ฐ์น, ํน์ ์์๋ฅผ ๋น๊ตํ ์ X
- ex. ๊ณ ์์ด vs ๊ฐ ⇒ ํฌ๊ธฐ๋ ๊ฐ์น๋ฅผ ๋น๊ตํ ์ X
- ๋น์ฐ์์ ์ด์ง๋ง ์ซ์์ฒ๋ผ ๋น๊ต ๊ฐ๋ฅํ ๊ฒฝ์ฐ: ํ์ (“A”, “B”, “C”, “D”)์ ์ฃผ๋ ๊ฒฝ์ฐ๋ ๋น์ฐ์์ ์ด๊ณ ๊ธฐํธ๋ก ํ์๋์ง๋ง, ํฌ๊ธฐ ํน์ ์์๋ฅผ ๋น๊ตํ ์ ์์
- ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ์ ์๊ฐ ์ ํ๋์ด ์์: ํด๋์ค(class) → ์ด์ง ํด๋์ค(binary class), ๋ค์ค ํด๋์ค(multi class)
- ์นดํ
๊ณ ๋ฆฌํ(๋ฒ์ฃผํ)
- ์์ธก ๋ฌธ์ ๋ ์ถ๋ ฅํ๊ณ ์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์ซ์ ๊ฐ์ธ๊ฐ ์นดํ
๊ณ ๋ฆฌ๊ฐ์ธ๊ฐ์ ๋ฐ๋ผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์์ ํ ๋ฌ๋ผ์ง
- ํ๊ท vs ๋ถ๋ฅ
ํ๊ท๋ถ์ regression analysis
- ์ถ๋ ฅํ๊ณ ์ ํ๋ ๊ฐ์ด ์ฐ์๋ ์ค์ ๊ฐ์ผ ๊ฒฝ์ฐ
- ์ ํต์ ์ธ ํต๊ณ๋ถ์์์ ๋ง์ด ์ฌ์ฉํ๋ ์์ธก ๋ฐฉ๋ฒ
- ์ด๋ค ๋ณ์ Y์ ๊ฐ์ ์์ธกํ๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ณผ์
๋ถ๋ฅ classification
- ์ถ๋ ฅํ๊ณ ์ ํ๋ ๊ฐ์ด ์นดํ ๊ณ ๋ฆฌ๊ฐ์ธ ๊ฒฝ์ฐ
- ๋
๋ฆฝ๋ณ์๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๊ทธ ๊ฐ๊ณผ ๊ฐ์ฅ ์ฐ๊ด์ฑ์ด ํฐ ์ข
์๋ณ์๊ฐ(ํด๋์ค)์ ์์ธกํ๋ ๋ฌธ์
- ์ฆ, ์ด๋ค ํ๋ณธ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋ ๊ทธ ํ๋ณธ์ด ์ด๋ค ์นดํ ๊ณ ๋ฆฌ ํน์ ํด๋์ค์ ์ํ๋์ง
- ex. ์ด๋ฏธ์ง๋ฅผ ์ปดํจํฐ์ ์ ๋ ฅํ์ ๋ “๊ฐ”์ธ์ง “๊ณ ์์ด”์ธ์ง ํ๋ณํ๋ ๋ฌธ์
- ํ๋ฅ ์ ๋ชจํ
: ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด ๊ฐ ์นดํ ๊ณ ๋ฆฌ ํน์ ํด๋์ค๊ฐ ์ ๋ต์ผ ์กฐ๊ฑด๋ถํ๋ฅ ๊ณ์ฐ
=> ์ง์ ์กฐ๊ฑด๋ถํ๋ฅ ํจ์์ ๋ชจ์์ ์ถ์ ํ๋ ํ๋ฅ ์ ํ๋ณ(discriminative)๋ชจํ๊ณผ ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ์ ์ผ๋ก ์กฐ๊ฑด๋ถํ๋ฅ ์ ๊ตฌํ๋ ํ๋ฅ ์ ์์ฑ(generative)๋ชจํ ์ผ๋ก ๋๋จ - ํ๋ณํจ์ ๋ชจํ
: ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์นดํ ๊ณ ๋ฆฌ์ ๋ฐ๋ผ ์๋ก ๋ค๋ฅธ ์์ญ์ผ๋ก ๋๋๋ ๊ฒฝ๊ณ๋ฉด์ ์ฐพ์๋ธ ๋ค์, ์ด ๊ฒฝ๊ณ๋ฉด์ผ๋ก๋ถํฐ ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ์ด๋ ์์น์ ์๋์ง๋ฅผ ๊ณ์ฐํ๋ ํ๋ณํจ์(discriminant function) ์ด์ฉ
- ์ฌ๋ฌ ๋ถ๋ฅ๋ชจํ๊ณผ ๋ฐฉ๋ฒ๋ก
๋ชจํ ๋ฐฉ๋ฒ๋ก
LDA/QDA | ํ๋ฅ ์ ์์ฑ๋ชจํ |
๋์ด๋ธ ๋ฒ ์ด์ง์ | ํ๋ฅ ์ ์์ฑ๋ชจํ |
๋ก์ง์คํฑ ํ๊ท | ํ๋ฅ ์ ํ๋ณ๋ชจํ |
์์ฌ๊ฒฐ์ ๋๋ฌด | ํ๋ฅ ์ ํ๋ณ๋ชจํ |
ํผ์ ํธ๋ก | ํ๋ณํจ์ ๋ชจํ |
์ํฌํธ๋ฒกํฐ๋จธ์ | ํ๋ณํจ์ ๋ชจํ |
์ธ๊ณต์ ๊ฒฝ๋ง | ํ๋ณํจ์ ๋ชจํ |
- QDA(Quadratic Discriminant Analysis), ๋์ด๋ธ ๋ฒ ์ด์ง์ ๋ชจํ(Naive Bayesian)
- ์กฐ๊ฑด๋ถํ๋ฅ ๊ธฐ๋ฐ ์์ฑ(generative) ๋ชจํ์ ํ๋
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ ์ฌ์ฉ
- ํด๋์ค๊ฐ 3๊ฐ ์ด์์ธ ๊ฒฝ์ฐ์๋ ๋ฐ๋ก ์ ์ฉํ ์ ์์
- ๋ก์ง์คํฑ ํ๊ท ๋ชจํ
- ํ๋ฅ ๋ก ์ ํ๋ณ ๋ชจํ์ ์ํจ
- ํ๊ท๋ฅผ ์ฌ์ฉํด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์์ธก, ๊ทธ ํ๋ฅ ์ ๋ฐ๋ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์ ๋ฒ์ฃผ์ ์ํ๋ ๊ฒ์ผ๋ก ๋ถ๋ฅ
- ํผ์
ํธ๋ก (Perceptron)
- ๊ฐ์ฅ ๋จ์ํ ํ๋ณํจ์ ๋ชจํ
- ์ง์ ์ด ๊ฒฝ๊ณ์ (boundary line)์ผ๋ก ๋ฐ์ดํฐ ์์ญ์ ๋๋
- ์ปค๋ SVM(Kernel Support Vector Machine)
- ๋ณต์กํ ํํ์ ๊ฒฝ๊ณ์ ์์ฑ ๊ฐ๋ฅ
โ ์์ง ๋ค์ํ ๋ถ๋ฅ๋ชจํ์ด ์ด๋ค ์ฐจ์ด๊ฐ ์๋์ง ์ฌ์ฉํ ์ฝ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ ํ๊ธฐ ์ด๋ ต๊ณ ์ดํด๊ฐ ๋์ง ์๋๋ค. ์์๋ธ ๋ชจ๋ธ์ ๋ํด ์์๋ด์ผํ ํ์์ฑ์ ๋๊ผ๋ค.
[Data Science] ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ฐ๋ - 6.๋ถ๋ฅ๋ฌธ์
์ด ์๋ฃ๋ ์ฝ์ด๋ดค๋๋ฐ ๊ฐ๋ ์ด ์ด๋ ต๊ณ ์ดํด๊ฐ ๋ฐ๋ก ๋์ง ์์ SOS๋ฅผ ์์ฒญํฉ๋๋ท.