๐Ÿ’ก WIDA/DACON ๋ถ„๋ฅ˜-ํšŒ๊ท€

[DACON/๊น€๋ฏผํ˜œ] ์ฒœ์ฒด ์œ ํ˜• ๋ถ„๋ฅ˜ ๋Œ€ํšŒ๋ฅผ ์œ„ํ•œ ๋„๋ฉ”์ธ ์ง€์‹ ์•Œ์•„๋ณด๊ธฐ

์•Œ ์ˆ˜ ์—†๋Š” ์‚ฌ์šฉ์ž 2023. 3. 16. 17:00

Dacon ์ฒœ์ฒด ์œ ํ˜• ๋ถ„๋ฅ˜ ๊ฒฝ์ง„๋Œ€ํšŒ

๋Œ€ํšŒ ๊ฐœ์š”

์ฒœ์ฒด ๋ฐ์ดํ„ฐ์ธ ‘์Šฌ๋ก  ๋””์ง€ํ„ธ ์ฒœ์ฒด ๊ด€์ธก(SDSS)’ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ฒœ์ฒด ์œ ํ˜• ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ์˜ˆ์ธก ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ์ƒ์„ฑ.

์ฒœ์ฒด๋ฅผ ๊ด€์ธกํ•˜์—ฌ ์ธก์ •๋œ 21๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ด๋ฏธ ์ •์˜๋œ 19๊ฐœ์˜ ์ฒœ์ฒด ์œ ํ˜•์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋Œ€ํšŒ

์ถœ์ฒ˜:  https://brunch.co.kr/@tobesoft-ai/14

  • 5๊ฐœ ์ข…๋ฅ˜์˜ ์ฒœ์ฒด ๊ด€์ธก ๋ฐ์ดํ„ฐ → ๊ทœ๋ชจ(magnitude) ๋ฐ์ดํ„ฐ๋Š” 5๊ฐœ์˜ ์„ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง

 

๊ธฐ๋ณธ์ง€์‹

  • ์ฒœ์ฒด์˜ ์ข…๋ฅ˜ (์ถœ์ฒ˜: ๐Ÿ”—LINK)
    • ํ•ญ์„ฑ star
      DEF) ํ•ต์œตํ•ฉ ๋ฐ˜์‘์„ ํ†ตํ•ด ์Šค์Šค๋กœ ๋น›์„ ๋‚ด๋Š” ์ฒœ์ฒด
    • ํ–‰์„ฑ planet
      DEF) ํ•ญ์„ฑ์„ ์ค‘์‹ฌ์œผ๋กœ ๊ณต์ „ํ•˜๊ณ  ์žˆ๋Š” ์ฒœ์ฒด
      • ๊ด€์ธกํ•˜๊ธฐ ์‰ฌ์šด ํŽธ
      • ๋ฐ๊ฒŒ ๋น›๋‚˜๋Š” ๊ฒƒ์ด ๋งŽ์œผ๋ฉฐ ์œก์•ˆ์œผ๋กœ ์ฐพ๊ธฐ๋„ ์‰ฝ๋‹ค
      • ์†Œ๊ตฌ๊ฒฝ ๋ง์›๊ฒฝ์œผ๋กœ๋„ ํ˜•ํƒœ๋ฅผ ์‰ฝ๊ฒŒ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ์Œ
    • ์œ„์„ฑ satellite
      DEF) ํ–‰์„ฑ์„ ๊ณต์ „ํ•˜๊ณ  ์žˆ๋Š” ์ฒœ์ฒด
      • ํŠน์ง•์ด ๋งค์šฐ ๋‹ค์–‘ํ•ด ํƒœ์–‘๊ณ„ ๋‚ด์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ฒœ์ฒด๋“ค
    • ์‚ฐ๊ฐœ์„ฑ๋‹จ open cluster
      DEF) ์‚ฐ๊ฐœ๋˜์–ด์žˆ๋Š” ๋ณ„์˜ ๋ฌด๋ฆฌ
      • ๋น„๊ต์  ์ Š์€ ๋ณ„๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ
      • ์œก์•ˆ ๊ด€์ธก์ด ๊ฐ€๋Šฅํ•˜๊ฑฐ๋‚˜ ์†Œ๊ตฌ๊ฒฝ ์Œ์•ˆ๊ฒฝ์œผ๋กœ ์ฆ๊ธธ ์ˆ˜ ์žˆ์Œ
    • ๊ตฌ์ƒ์„ฑ๋‹จ globular cluster
      DEF) ํ•ญ์„ฑ๋“ค์ด ์งˆ๋Ÿ‰์ค‘์‹ฌ์„ ๊ธฐ์ค€์œผ๋กœ ๊ตฌ์˜ ํ˜•ํƒœ๋กœ ๋ชจ์—ฌ์žˆ๋Š” ์ง‘๋‹จ
      • ๋‚˜์ด๊ฐ€ ๋งŽ์€ ๋ณ„๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ
      • ๋ฐœ์ƒ์›์ธ ๋ถˆ๋ช…ํ™•
      • ์ข์€ ์˜์—ญ ์•ˆ์— ๋ชจ์—ฌ ์žˆ์–ด ๋ฐฐ์œจ์ด ๋†’์€ ์ฒœ์ฒด๋ง์›๊ฒฝ์œผ๋กœ ๊ด€์ธกํ•ด์•ผ ํ•จ
    • ์€ํ•˜ galaxy
      DEF) ๋งค์šฐ ๋งŽ์€ ํ•ญ์„ฑ์ด ๋ชจ์—ฌ ๋งŒ๋“ค์–ด์ง„ ๊ฒƒ
      • ์งˆ๋Ÿ‰์ค‘์‹ฌ์„ ๊ธฐ์ค€์œผ๋กœ ์ƒํ˜ธ ์ธ๋ ฅ์— ์˜ํ•ด ๋ถ™์žกํ˜€์žˆ๋Š” ํ•ญ์„ฑ๋“ค๋กœ ๊ตฌ์„ฑ๋จ
      • ์€ํ•˜ ์•ˆ์— ๊ตฌ์ƒ์„ฑ๋‹จ์ด๋‚˜ ์„ฑ์šด ๋“ฑ๋„ ํ•จ๊ป˜ ํฌํ•จ๋˜์–ด ์žˆ์Œ
    • ์„ฑ์šด nebular
      DEF) ๊ฐ€์Šค๋‚˜ ์„ฑ๊ฐ„๋ฌผ์งˆ์ด ๋ฐ€๋„ ๋†’๊ฒŒ ๋ชจ์—ฌ์žˆ๋Š” ์ง€์—ญ
      • ์„ฑ๋ถ„์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ์ƒ‰, ์ƒ์„ฑ์›์ธ์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ๋ชจ์–‘์„ ๋ฐ
      • ๋ฐ€๋„๊ฐ€ ๋†’์€ ์ง€์—ญ์—์„œ๋Š” ํ•ญ์„ฑ์ด ์ƒ์„ฑ๋˜๊ธฐ๋„ ํ•จ

 

  • ํ•ญ์„ฑ๋ถ„๋ฅ˜ (์ถœ์ฒ˜: ๐Ÿ”—LINK)⇒ ์ฃผ๋กœ ํ‘œ๋ฉด์˜จ๋„์™€ ๋ถ„๊ด‘ํ•™์  ํŠน์ง• ๋‘ ๊ฐ€์ง€์— ์˜ํ•ด ํ•ญ์„ฑ์„ ๋ถ„๋ฅ˜ํ•œ๋‹ค.
    : ํ•ญ์„ฑ๋“ค์„ ํŠน์ • ๊ธฐ์ค€์— ๋”ฐ๋ผ ๊ตฌ๋ณ„ํ•˜๋Š” ๊ฒƒ 
    • ํ•ญ์„ฑ๋ถ„๊ด‘ํ•™์˜ ๋ฐœ์ „์œผ๋กœ ํก์ˆ˜์„ ์˜ ์–‘์ƒ์— ๋”ฐ๋ผ ๊ฑฐ๋ฆฌ์— ๊ด€๊ณ„์—†์ด ํ•ญ์„ฑ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค.
  • QSO ํ€˜์ด์‚ฌ (์ถœ์ฒ˜: Link)
    : ์ผ๋ฐ˜์ ์ธ ์€ํ•˜๋ณด๋‹ค๋„ ํ›จ์”ฌ ๋ฐ์€ ํ™œ๋™์„ ๋ณด์ด๋Š” ํ™œ๋™์€ํ•˜ํ•ต์˜ ํ•œ ์ข…๋ฅ˜
    • ์ดˆ๋Œ€์งˆ๋Ÿ‰ ๋ธ”๋ž™ํ™€ ์ฒœ์ฒด์ด๋ฉฐ, ์ง€๊ตฌ๋กœ๋ถ€ํ„ฐ ๋„ˆ๋ฌด ๋ฉ€์–ด ๊ด€์ธก์ด ์‰ฝ์ง€ ์•Š์Œ
    • ํ€˜์ด์‚ฌ์˜ ๊ด‘๋„๊ณก์„ ์„ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ์ค‘๋ ฅ๋ Œ์ฆˆ ํ˜„์ƒ์„ ๊ฒช์€ ํ€˜์ด์‚ฌ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด ๊ด€์ธก๋ฐฉ๋ฒ•
  • SDSS(Sloan Digital Sky Survey) (์ถœ์ฒ˜: Link)
    • ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘ ๋ถ„๊ด‘ ์˜์ƒํ™” ๋ฐ ๋ถ„๊ด‘ํ•™์  ์ ์ƒ‰ํŽธ์ด ํƒ์‚ฌ ๊ณ„ํš
    • ํŠน๋ณ„ํ•œ ์ฒœ์ฒด๋ฅผ ์ง€๋ชฉํ•˜์ง€์•Š๊ณ  ์ตœ๋Œ€ํ•œ ๋„“์€ ํ•˜๋Š˜ ์˜์—ญ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป์–ด๋‚ด๋Š” ๋ฐฉ์‹
    • ์•ฝ 5์–ต ๊ฐœ์˜ ์ฒœ์ฒด์— ๋Œ€ํ•œ ์ธก๊ด‘ ์ž๋ฃŒ์™€ 300๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ฒœ์ฒด์˜ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ์ˆ˜์ง‘ํ•จ
      • ์ฃผ์š” ์€ํ•˜ ํ‘œ๋ณธ์€ ์ ์ƒ‰ํŽธ์ด ์ค‘๊ฐ„๊ฐ’์ด z = 0.1
      • ๋ฐ์€ ์ ์ƒ‰ ์€ํ•˜์— ๋Œ€ํ•˜์—ฌ ์ ์ƒ‰ํŽธ์ด z = 0.7
      • ํ€˜์ด์‚ฌ์— ๋Œ€ํ•˜์—ฌ ์ ์ƒ‰ํŽธ์ด z = 5
    • ๊ด€์ธก
      • ์ „์šฉ์œผ๋กœ ๊ตฌ๋น„๋œ 2.5 m ๊ด‘๊ฐ ๊ด‘ํ•™๋ง์›๊ฒฝ์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์Œ
      • ํ•„ํ„ฐ ๋‹ค์„ฏ๊ฐœ(u, g, r, i, z)๋กœ ๊ตฌ์„ฑ๋œ ์ธก๊ด‘๊ณ„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ดฌ์˜๋จ
        • ์ด ์‚ฌ์ง„๋“ค์€ ์ ์ƒ ํ˜น์€ ์€ํ•˜์™€ ๊ฐ™์ด ํผ์ง„์ƒ์œผ๋กœ ๋ณด์ด๋Š”์ง€, CCD๊ฐ€ ๊ฒ€์ถœํ•˜๋Š” ๋ฐ๊ธฐ๊ฐ€ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋ฐ๊ธฐ ๋“ฑ๊ธ‰๊ณผ ์—ฐ๊ด€๋˜๋Š”๊ฐ€์— ๋”ฐ๋ฅธ ๋‹ค์–‘ํ•œ parameter๋“ค์˜ ๋ชฉ๋ก ์ž‘์„ฑ์—๋„ ์“ฐ์ธ๋‹ค๊ณ  ํ•œ๋‹ค.
      • ๊ฐ ๊ด‘ํ•™ ํ•„ํ„ฐ๋Š” ์ˆœ์„œ์— ๋”ฐ๋ผ ํ‰๊ท  ์—ฌ๊ณผ ํŒŒ์žฅ์ด 355.1, 468.6, 616.5, 748.1, 893.1 nm
      • ๋ถ„๊ด‘์นด๋ฉ”๋ผ๋Š” ์•Œ๋ฃจ๋ฏธ๋Š„ํŒ์— ๋šซ๋ ค ์žˆ๋Š” ๊ตฌ๋ฉ์„ ํ†ตํ•ด ๋ณด์ด๋Š” ๊ฐ ํ‘œ์ ์— ๊ด‘์„ฌ์œ ๋ฅผ ๊ณต๊ธ‰ํ•˜์—ฌ ์ž‘๋™
      • ์ฐธ๊ณ  : SDSS parameter ๋ฐ›๊ธฐ (3) Object Crossid ์ด์šฉํ•˜๊ธฐ

Data ํ†บ์•„๋ณด๊ธฐ

โ“ ํ•ญ์„ฑ ์ข…๋ฅ˜

  1. QSO- ํ€˜์ด์‚ฌ
  2. STAR_RED_DWARF - ์ ์ƒ‰์™œ์„ฑ
  3. STAR_BHB - ์ˆ˜ํ‰๊ฑฐ์—ด์„ฑ
  4. STAR_CATY_VAR - ๊ฒฉ๋ณ€๋ณ€๊ด‘์„ฑ
  5. SERENDIP_RED, SERENDIP_BLUE, SERENDIP_DISTANT : ํ•ญ์„ฑ ๊ตฌ์—ญ ์™ธ๋ถ€์— ๋†“์ธ ์ฒœ์ฒด
  6. SERENDIPITY_FIRST : ์ฒซ๋ฒˆ์งธ ๊ด€์ธก์—์„œ ํ€˜์ด์‚ฌ๋กœ ๋ถ„๋ฅ˜๋˜์—ˆ์ง€๋งŒ, ์ด์–ด์ง„ ๊ด€์ธก์—์„œ๋Š” ๋” ํ๋ฆฟํ•œ ์ฒœ์ฒด
  7. SERENDIPITY_MANUAL : ์ˆ˜๋™์œผ๋กœ ๊ด€์ธก๋œ ์ฒœ์ฒด
  8. sky : ๋นˆ ํ•˜๋Š˜
  9. ROSAT_D : X-์„  ํŒŒ์žฅ๋Œ€์—์„œ ๊ด€์ธกํ•œ ์ฒœ์ฒด์ด์ง€๋งŒ, SDSS ๋ง์›๊ฒฝ์—์„œ๋„ ๊ด€์ธก๋˜๋Š” ์ฒœ์ฒด

โ“ ์•ŒํŒŒ๋ฒณ(u, g, r, i, z)์˜ ์˜๋ฏธ

์•ŒํŒŒ๋ฒณ์€ ํŒŒ์žฅ๋Œ€๋ฅผ ์˜๋ฏธํ•œ๋‹ค๊ณ  ํ•˜๋ฉฐ ๊ฐ๊ฐ ์•„๋ž˜์™€ ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ์ง€๋‹ˆ๊ณ  ์žˆ๋‹ค.

u : Ultraviolet

g : Green

r : Red

i : Near Infrared

z : Infrared

[๋ฐ์ด์ฝ˜๋‹ต๋ณ€์š”์ฒญ]๋ฐ์ดํ„ฐ ๋ผ๋ฒจ์—๋Œ€ํ•œ ์ถ”๊ฐ€์„ค๋ช… ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

 

 

๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค Data Science

๋ถ„๋ฅ˜์™€ ํšŒ๊ท€ ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ดํ•ดํ•˜๋ ค๋ฉด ๋จผ์ € ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šคdatascience์˜ ํฐ ํ‹€๋ถ€ํ„ฐ ์•Œ์•„์•ผ ํ•  ํ•„์š”์„ฑ์„ ๋Š๊ผˆ๋‹ค.

๋น…๋ฐ์ดํ„ฐ

์ตœ๊ทผ ์–ป์„ ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๋ฐ์ดํ„ฐ์˜ ์ด์นญ์œผ๋กœ์„œ 5V๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” 5๊ฐ€์ง€ ํŠน์ง•์„ ๋ค๋‹ค.

  • ํฌ๊ธฐ Volume
  • ์†๋„ Velocity
  • ๋‹ค์–‘์„ฑ Variety
  • ์ •ํ™•์„ฑ Veracity
  • ๊ฐ€์น˜ Value

์ธ๊ณต์ง€๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ๊ณผํ•™์˜ ์ ‘์ ์€ ๋จธ์‹ ๋Ÿฌ๋‹์œผ๋กœ, ์ž๋™ํ™”ํ•  ๋ถ€๋ถ„์€ ์ž๋™ํ™”ํ•˜๊ณ  ์ „์ฒด์˜ ํ๋ฆ„์„ ์ œ์–ดํ•˜๋Š” ๊ฒƒ์ด ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ์˜ ์—…๋ฌด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค.

ํŒŒ์ดํ”„๋ผ์ธ

  1. ๋ฌด์—‡์„ ํ•  ๊ฒƒ์ธ๊ฐ€ [๊ฐ€์„ค์ˆ˜๋ฆฝ]
  2. ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์„ ๊ฒƒ์ธ๊ฐ€
  3. ํ•„์š”ํ•œ ์ด๋ก ๊ณผ ์š”์†Œ, ๊ธฐ์ˆ ์„ ์กฐํ•ฉํ•ด ํ”„๋กœ๊ทธ๋žจ์œผ๋กœ ๊ตฌํ˜„
  4. ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐœ์„ ์„ ๋ฐ˜๋ณต. [plan-do-check-action]
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ฒ•(1)
    Open data: ๋ˆ„๊ตฌ๋‚˜ ๋„๋ฆฌ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด ๊ณต๊ฐœํ•œ ๊ฒƒ
    • ๊ฐ๊ตญ ์ •๋ถ€๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์‚ฌํšŒ ์ „๋ฐ˜ ํ†ต๊ณ„ ๋ฐ์ดํ„ฐ
    • ์œ„ํ‚คํ”ผ๋””์•„ ๋“ฑ ๊ณต๋™ ํ˜‘๋ ฅ์œผ๋กœ ๋ชจ์€ ์ •๋ณด๋ฅผ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šคํ™” ํ•œ ๊ฒƒ
    • ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ธ”๋กœ๊ทธ๊ฐ€ ๊ณต๊ฐœํ•œ ๋ฐ์ดํ„ฐ
    • ์ผ€๊ธ€ ๋ฐ์ดํ„ฐ
    • DeepAnalystics
    • etc.
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ฒ•(2)
    Web API: Application Programming Interface; ์„œ๋น„์Šค ์ œ๊ณต์ž๊ฐ€ ์†Œํ”„ํŠธ์›จ์–ด ์ผ๋ถ€๋‚˜ ๋ณด์œ ์ค‘์ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฅธ ์‚ฌ์šฉ์ž๋„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต๊ฐœํ•˜๋Š” ์„œ๋น„์Šค
    • ๊ตญํšŒ๋„์„œ๊ด€
    • ๋ผ์ฟ ํ…
    • ๊ตฌ๋ฃจ๋‚˜๋น„
    • Google
    • Facebook
    • New York Times
    • Associated Press
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ฒ•(3)
    ์›น ์Šคํฌ๋ ˆ์ดํ•‘: ์›น์‚ฌ์ดํŠธ์— ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ํ–‰์œ„
    • ์ˆ˜์ง‘ ๊ฐ€๋Šฅ ์—ฌ๋ถ€ → page address/robos.txt๋กœ ํ™•์ธ

 

๋จธ์‹ ๋Ÿฌ๋‹ Machine Learning

DEF) ์ปดํ“จํ„ฐ๊ณผํ•™์—์„œ ์ปดํ“จํ„ฐ๋ฅผ ์ ๊ทน์ ์œผ๋กœ ์ด์šฉํ•œ ํ†ต๊ณ„ํ•™

ํ•™์Šต ์‹œ๋‚˜๋ฆฌ์˜ค(=๋จธ์‹ ๋Ÿฌ๋‹์—์„œ์˜ ๋ฌธ์ œ ์„ค์ •)

์ง€๋„ํ•™์Šต

  • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ์ถœ๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ธํŠธ๋กœ ๋˜์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ฒƒ
  • ex. ์ฃผํƒ ๊ฐ€๊ฒฉ์„ ํŠน์ •๋Ÿ‰(์„ค๋ช…๋ณ€์ˆ˜)์„ ์ด์šฉํ•ด ํšŒ๊ท€๋ชจ๋ธ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ, ํšŒ๊ท€, ๋ถ„๋ฅ˜, ๋žญํ‚น์ด๋Ÿฐ ์ˆ˜์‹์„ ์„ค์ •ํ–ˆ์„ ๋•Œ, ์ง€๋„ํ•™์Šต์˜ ๋ชฉ์ ์€ f๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ.
  • Y = f(X) + ์˜ค์ฐจํ•ญ
  • f๋ฅผ ์ถ”์ •ํ•จ์œผ๋กœ์จ
    ⇒ ์ฃผํƒ๊ฐ€๊ฒฉ ์˜ˆ์ธก ๊ฐ€๋Šฅ
    ⇒ ๋ฐ์ดํ„ฐ ํ•ด์„
  • ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ(training data set)์„ ์‚ฌ๋žŒ์ด ๋งŒ๋“ค์–ด ์ค˜์•ผ ํ•จ

๋น„์ง€๋„ํ•™์Šต

  • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋งŒ ์ฃผ์–ด์ง„ ์ƒํ™ฉ
  • ์ž…๋ ฅ/์ถœ๋ ฅ์ด ๊ตฌ๋ถ„๋˜์ง€ ์•Š๋Š” ๋‹จ์ˆœํ•œ “๋ฐ์ดํ„ฐ๋“ค์˜ ๊ด€๊ณ„”์—์„œ ํŠน์ •ํ•œ ๊ทœ์น™์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ
  • ex. ํด๋Ÿฌ์Šคํ„ฐ๋ง, ์ฐจ์›์‚ญ๊ฐ, ํ–‰๋ ฅ๋ณด์™„, ๋‹ค์–‘์ฒดํ•™์Šต

์ค€์ง€๋„ํ•™์Šต

  • ์–‘์ชฝ ์ธก๋ฉด์„ ํฌํ•จํ•จ. ์ผ๋ถ€ ๋ฐ์ดํ„ฐ์—๋Š” ์ถœ๋ ฅ ๋ฐ์ดํ„ฐO, ๋‚˜๋จธ์ง€๋Š” X.
  • ex. SNS ๋“ฑ์—์„œ ์ˆ˜์ง‘๋œ ์šฐํ˜ธ ๊ด€๊ณ„ ๋„คํŠธ์›Œํฌ์™€ ์ผ๋ถ€ ์„ฑ๋ณ„์ด ํŒ๋ช…๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ

 

์˜ˆ์ธก

DEF) ์ˆซ์ž, ๋ฌธ์„œ, ์ด๋ฏธ์ง€, ์Œ์„ฑ, ์˜์ƒ ๋“ฑ์˜ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ๋ฉด, ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ๊ฒฐ๊ณผ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ถ„์„ ๋ฐฉ๋ฒ•

๋”๋ณด๊ธฐ

๐Ÿ“Œ examples
- ๋ถ€๋™์‚ฐ์˜ ์œ„์น˜, ์ฃผ๊ฑฐํ™˜๊ฒฝ, ๊ฑด์ถ•์—ฐ๋„ ๋“ฑ์„ ์ฃผ๋ฉด ํ•ด๋‹น ๋ถ€๋™์‚ฐ์˜ ๊ฐ€์น˜๋ฅผ ์ถ”์ •
- ๊ฝƒ์žŽ์˜ ๊ธธ์ด์™€ ๋„ˆ๋น„ ๋“ฑ ์‹๋ฌผ์˜ ์™ธํ˜•์  ํŠน์ง•์„ ์ฃผ๋ฉด ํ•ด๋‹นํ•˜๋Š” ์‹๋ฌผ์˜ ์ข…์„ ์•Œ์•„๋‚ด๊ธฐ
- ์–ผ๊ตด ์‚ฌ์ง„์„ ์ฃผ๋ฉด ํ•ด๋‹นํ•˜๋Š” ์‚ฌ๋žŒ์˜ ์ด๋ฆ„์„ ์ถœ๋ ฅ

- ํ˜„์žฌ ๋ฐ”๋‘‘๋Œ์˜ ์œ„์น˜๋“ค์„ ์ฃผ๋ฉด ๋‹ค์Œ ๋ฐ”๋‘‘๋Œ์˜ ์œ„์น˜ ์ง€์ • 

  • ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž‘์—… ์ค‘ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ์œ ํ˜• ์ค‘ ํ•˜๋‚˜
  • ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ‘์˜ˆ์ธก’์€ ์‹œ๊ฐ„์ƒ์œผ๋กœ ๋ฏธ๋ž˜์˜ ์˜๋ฏธ๋Š” ํฌํ•จX
  • ์ถœ๋ ฅ๋ฐ์ดํ„ฐ: ์ถ”์ •ํ•˜๊ฑฐ๋‚˜ ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•˜๋Š” ๋ชฉ์  ๋ฐ์ดํ„ฐ๋กœ ๋ณดํ†ต ์•ŒํŒŒ๋ฒณ ‘Y’๋กœ ํ‘œ๊ธฐ ← ์ข…์†๋ณ€์ˆ˜, ๋ผ๋ฒจ, ๋ ˆ์ด๋ธ”… ์ž…๋ ฅ๋ฐ์ดํ„ฐ: ๋ถ„์„์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๋ฐ์ดํ„ฐ๋กœ ๋ณดํ†ต ์•ŒํŒŒ๋ฒณ ‘X’๋กœ ํ‘œ๊ธฐ ← ๋…๋ฆฝ๋ณ€์ˆ˜, ํŠน์ง•, ์„ค๋ช…๋ณ€์ˆ˜…
  • ๋ณดํ†ต ์ปดํ“จํ„ฐ๊ฐ€ ๋‹ค๋ฃจ๋Š” ๋ฐ์ดํ„ฐ๋Š” ์ˆซ์žํ˜• ๋ฐ์ดํ„ฐ์ด๋‚˜, ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ’๋„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ค‘ ํ•˜๋‚˜์ž„
    • ์นดํ…Œ๊ณ ๋ฆฌํ˜•(๋ฒ”์ฃผํ˜•)
      • ์ˆซ์ž ๊ฐ’๊ณผ ๋‹ฌ๋ฆฌ ์ฃผ๋กœ ๊ธฐํ˜ธ๋กœ ํ‘œ์‹œ๋˜๋ฉฐ ๋น„์—ฐ์†์ 
      • ๋‘ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์„ ๋•Œ ์ด๋“ค์˜ ํฌ๊ธฐ๋‚˜ ๊ฐ€์น˜, ํ˜น์€ ์ˆœ์„œ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ X
        • ex. ๊ณ ์–‘์ด vs ๊ฐœ ⇒ ํฌ๊ธฐ๋‚˜ ๊ฐ€์น˜๋ฅผ ๋น„๊ตํ•  ์ˆ˜ X
        • ๋น„์—ฐ์†์ ์ด์ง€๋งŒ ์ˆซ์ž์ฒ˜๋Ÿผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ: ํ•™์ (“A”, “B”, “C”, “D”)์„ ์ฃผ๋Š” ๊ฒฝ์šฐ๋Š” ๋น„์—ฐ์†์ ์ด๊ณ  ๊ธฐํ˜ธ๋กœ ํ‘œ์‹œ๋˜์ง€๋งŒ, ํฌ๊ธฐ ํ˜น์€ ์ˆœ์„œ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Œ
      • ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ์ œํ•œ๋˜์–ด ์žˆ์Œ: ํด๋ž˜์Šค(class) → ์ด์ง„ ํด๋ž˜์Šค(binary class), ๋‹ค์ค‘ ํด๋ž˜์Šค(multi class)
  • ์˜ˆ์ธก ๋ฌธ์ œ๋Š” ์ถœ๋ ฅํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆซ์ž ๊ฐ’์ธ๊ฐ€ ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ’์ธ๊ฐ€์— ๋”ฐ๋ผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์™„์ „ํžˆ ๋‹ฌ๋ผ์ง
    • ํšŒ๊ท€ vs ๋ถ„๋ฅ˜

 

ํšŒ๊ท€๋ถ„์„ regression analysis

  • ์ถœ๋ ฅํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์ด ์—ฐ์†๋œ ์‹ค์ˆ˜ ๊ฐ’์ผ ๊ฒฝ์šฐ
  • ์ „ํ†ต์ ์ธ ํ†ต๊ณ„๋ถ„์„์—์„œ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” ์˜ˆ์ธก ๋ฐฉ๋ฒ•
  • ์–ด๋–ค ๋ณ€์ˆ˜ Y์˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ณผ์ •

๋ถ„๋ฅ˜ classification

  • ์ถœ๋ ฅํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์ด ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ’์ธ ๊ฒฝ์šฐ
  • ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ทธ ๊ฐ’๊ณผ ๊ฐ€์žฅ ์—ฐ๊ด€์„ฑ์ด ํฐ ์ข…์†๋ณ€์ˆ˜๊ฐ’(ํด๋ž˜์Šค)์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ
    • ์ฆ‰, ์–ด๋–ค ํ‘œ๋ณธ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ทธ ํ‘œ๋ณธ์ด ์–ด๋–ค ์นดํ…Œ๊ณ ๋ฆฌ ํ˜น์€ ํด๋ž˜์Šค์— ์†ํ•˜๋Š”์ง€
    • ex. ์ด๋ฏธ์ง€๋ฅผ ์ปดํ“จํ„ฐ์— ์ž…๋ ฅํ–ˆ์„ ๋•Œ “๊ฐœ”์ธ์ง€ “๊ณ ์–‘์ด”์ธ์ง€ ํŒ๋ณ„ํ•˜๋Š” ๋ฌธ์ œ
  1. ํ™•๋ฅ ์  ๋ชจํ˜•
    : ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ ํ˜น์€ ํด๋ž˜์Šค๊ฐ€ ์ •๋‹ต์ผ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ  ๊ณ„์‚ฐ
    => ์ง์ ‘ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ  ํ•จ์ˆ˜์˜ ๋ชจ์–‘์„ ์ถ”์ •ํ•˜๋Š” ํ™•๋ฅ ์  ํŒ๋ณ„(discriminative)๋ชจํ˜•๊ณผ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ„์ ‘์ ์œผ๋กœ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ ์„ ๊ตฌํ•˜๋Š” ํ™•๋ฅ ์  ์ƒ์„ฑ(generative)๋ชจํ˜• ์œผ๋กœ ๋‚˜๋‰จ
  2. ํŒ๋ณ„ํ•จ์ˆ˜ ๋ชจํ˜•
    : ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์นดํ…Œ๊ณ ๋ฆฌ์— ๋”ฐ๋ผ ์„œ๋กœ ๋‹ค๋ฅธ ์˜์—ญ์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒฝ๊ณ„๋ฉด์„ ์ฐพ์•„๋‚ธ ๋‹ค์Œ, ์ด ๊ฒฝ๊ณ„๋ฉด์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋Š ์œ„์น˜์— ์žˆ๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ํŒ๋ณ„ํ•จ์ˆ˜(discriminant function) ์ด์šฉ
  • ์—ฌ๋Ÿฌ ๋ถ„๋ฅ˜๋ชจํ˜•๊ณผ ๋ฐฉ๋ฒ•๋ก 

๋ชจํ˜• ๋ฐฉ๋ฒ•๋ก 

LDA/QDA ํ™•๋ฅ ์  ์ƒ์„ฑ๋ชจํ˜•
๋‚˜์ด๋ธŒ ๋ฒ ์ด์ง€์•ˆ ํ™•๋ฅ ์  ์ƒ์„ฑ๋ชจํ˜•
๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ํ™•๋ฅ ์  ํŒ๋ณ„๋ชจํ˜•
์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด ํ™•๋ฅ ์  ํŒ๋ณ„๋ชจํ˜•
ํผ์…‰ํŠธ๋ก  ํŒ๋ณ„ํ•จ์ˆ˜ ๋ชจํ˜•
์„œํฌํŠธ๋ฒกํ„ฐ๋จธ์‹  ํŒ๋ณ„ํ•จ์ˆ˜ ๋ชจํ˜•
์ธ๊ณต์‹ ๊ฒฝ๋ง ํŒ๋ณ„ํ•จ์ˆ˜ ๋ชจํ˜•
  • QDA(Quadratic Discriminant Analysis), ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ง€์•ˆ ๋ชจํ˜•(Naive Bayesian)
    • ์กฐ๊ฑด๋ถ€ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ์ƒ์„ฑ(generative) ๋ชจํ˜•์˜ ํ•˜๋‚˜
    • ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ ์‚ฌ์šฉ
    • ํด๋ž˜์Šค๊ฐ€ 3๊ฐœ ์ด์ƒ์ธ ๊ฒฝ์šฐ์—๋„ ๋ฐ”๋กœ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ

  • ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ชจํ˜•
    • ํ™•๋ฅ ๋ก ์  ํŒ๋ณ„ ๋ชจํ˜•์— ์†ํ•จ
    • ํšŒ๊ท€๋ฅผ ์‚ฌ์šฉํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ฒ”์ฃผ์— ์†ํ•  ํ™•๋ฅ ์„ 0~1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์˜ˆ์ธก, ๊ทธ ํ™•๋ฅ ์— ๋”ฐ๋ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋” ๋†’์€ ๋ฒ”์ฃผ์— ์†ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„๋ฅ˜

  • ํผ์…‰ํŠธ๋ก (Perceptron)
    • ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ํŒ๋ณ„ํ•จ์ˆ˜ ๋ชจํ˜•
    • ์ง์„ ์ด ๊ฒฝ๊ณ„์„ (boundary line)์œผ๋กœ ๋ฐ์ดํ„ฐ ์˜์—ญ์„ ๋‚˜๋ˆ”

 

  • ์ปค๋„ SVM(Kernel Support Vector Machine)
    • ๋ณต์žกํ•œ ํ˜•ํƒœ์˜ ๊ฒฝ๊ณ„์„  ์ƒ์„ฑ ๊ฐ€๋Šฅ

 

๋”๋ณด๊ธฐ

โ“ ์•„์ง ๋‹ค์–‘ํ•œ ๋ถ„๋ฅ˜๋ชจํ˜•์ด ์–ด๋–ค ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€ ์‚ฌ์šฉํ•œ ์ฝ”๋“œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต๊ณ  ์ดํ•ด๊ฐ€ ๋˜์ง€ ์•Š๋Š”๋‹ค. ์•™์ƒ๋ธ” ๋ชจ๋ธ์— ๋Œ€ํ•ด ์•Œ์•„๋ด์•ผํ•  ํ•„์š”์„ฑ์„ ๋Š๊ผˆ๋‹ค.

 

[Data Science] ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๊ฐœ๋… - 6.๋ถ„๋ฅ˜๋ฌธ์ œ

์ด ์ž๋ฃŒ๋Š” ์ฝ์–ด๋ดค๋Š”๋ฐ ๊ฐœ๋…์ด ์–ด๋ ต๊ณ  ์ดํ•ด๊ฐ€ ๋ฐ”๋กœ ๋˜์ง€ ์•Š์•„ SOS๋ฅผ ์š”์ฒญํ•ฉ๋‹ˆ๋‹ท.