๐Ÿ’ก WIDA/DACON ๋ถ„๋ฅ˜-ํšŒ๊ท€

[DACON/๊น€๊ทœ๋ฆฌ] ๋ถ„๋ฅ˜ ๋ชจ๋ธ ์•Œ์•„๋ณด๊ธฐ

kyuree 2023. 3. 24. 00:52

1. ๊ฐœ์š”

Classification(๋ถ„๋ฅ˜)?

-  Supervised learning(์ง€๋„ํ•™์Šต)์˜ ์ผ์ข…์œผ๋กœ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์˜ ์นดํ…Œ๊ณ ๋ฆฌ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๊ณ , ์ƒˆ๋กญ๊ฒŒ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ์Šค์Šค๋กœ ํŒ๋ณ„ํ•˜๋Š” ๊ณผ์ •

-  ์˜ˆ์‹œ๋กœ ๋ฌธ์ž๋ฅผ ํŒ๋ณ„ํ•  ๋•Œ, ์ŠคํŒธ์ธ์ง€ ์•„๋‹Œ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ๋‹จ์ผ๋ถ„๋ฅ˜ ๊ทธ๋ฆฌ๊ณ  ์ˆ˜๋Šฅ ์ ์ˆ˜๊ฐ€ ๋ช‡ ๋“ฑ๊ธ‰์— ์†ํ•˜๋Š”์ง€ ํŒ๋ณ„ํ•˜๋Š” ๋‹ค์ค‘๋ถ„๋ฅ˜๊ฐ€ ์žˆ์Œ

* cf) ๋น„์ง€๋„ ํ•™์Šต์˜ clustering :  ๋‹ค์ค‘๋ถ„๋ฅ˜์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ, ๋‹ค์ค‘๋ถ„๋ฅ˜๋Š” ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋„๋ฉ”์ธ์ด ์ •์˜๋˜์–ด์žˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์ฐจ์ด์ ์„ ์ง€๋‹Œ๋‹ค

 

Classification(๋ถ„๋ฅ˜) ์•Œ๊ณ ๋ฆฌ์ฆ˜ 

-  ์ผ๋ จ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋˜๋Š” ๊ธฐ์กด ์นดํ…Œ๊ณ ๋ฆฌ๋“ค์„ ํ•™์Šตํ•˜๊ณ , ์ด๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ปดํ“จํ„ฐ๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ฒ”์ฃผ๋ฅผ ๊ตฌ๋ถ„ํ•˜์—ฌ ๊ฒฝ๊ณ„๋ฅผ ๋‚˜๋ˆ„๋Š” ๊ฒƒ์„ ํ•™์Šต

 

 

2. ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ (Naive Bayes)

๊ฐœ์š”

๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ ์ „ํ†ต์ ์œผ๋กœ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉ๋˜์—ˆ๋˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ๊ธฐ๋ณธ ์›๋ฆฌ๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์— ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Baye’s theorem)๋ฅผ ์ ์šฉํ•œ ์›๋ฆฌ์ด๋‹ค. 

 

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ?

์ด๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ธ๋ฐ ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

P(A ¦ B) = (P(A ∩ B)) / (P(B))

 

  • ์ „์ œ: ๋‘ ์‚ฌ๊ฑด A, B๊ฐ€ ์žˆ๊ณ , ์‚ฌ๊ฑด B๊ฐ€ ๋ฐœ์ƒํ•œ ์ดํ›„์— ์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค๊ณ  ๊ฐ€์ •
  • ์ •์˜: ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚œ ํ›„ ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ 
  • P(A): ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ 
  • P(B): ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ  = ์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ์ „ ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ  = ์‚ฌ์ „ํ™•๋ฅ 
  • P(A¦B): ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚œ ํ›„ ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ  = ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ 
  • P(B¦A): ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ ์‚ฌ๊ฑด B๊ฐ€ ์•ž์„œ ์ผ์–ด๋‚ฌ์„ ํ™•๋ฅ  = ์‚ฌํ›„ํ™•๋ฅ 

 

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜

๋ฌธ์„œ๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๊ฐ ๊ฐ์˜ ์š”์†Œ๋“ค์ด ๋“ฑ์žฅํ•  ํ™•๋ฅ ์— ๋Œ€ํ•œ ๋…๋ฆฝ์„ฑ์„ ๊ฐ€์ •ํ•˜์—ฌ ์ž…๋ ฅ ๋ฒกํ„ฐ๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์—ฐ์‚ฐ์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์•Œ์•„๋ณด์ž.

 

์ฒซ ๋ฒˆ์งธ ์‹์€ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž๋ฃŒ๋ฅผ ๊ฐ ๋ถ„๋ฅ˜์— ์†ํ•  ๊ฒƒ์ธ์ง€ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๋Š” ์‹์ด๋‹ค.

๋‘ ๋ฒˆ์งธ ์‹์€ ๋งŒ์•ฝ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๋ชจ๋“  ๋ณ€์ˆ˜์˜ ๋…๋ฆฝ์„ฑ ๊ฐ€์ •์„ ํ•˜์ง€ ์•Š๊ณ  ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•œ ์‹์ธ๋ฐ, ์ด๋Š” ๋ณ€์ˆ˜๊ฐ„์˜ ์˜ํ–ฅ์„ ๊ณ ๋ คํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋งค์šฐ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค.

์„ธ ๋ฒˆ์งธ ์‹์€ ๋…๋ฆฝ์„ฑ ๊ฐ€์ •์„ ํ†ตํ•ด ๊ฐ ํŠน์„ฑ์˜ ํ™•๋ฅ ์— ๋Œ€ํ•œ ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•œ ์‹์ด๋‹ค. ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๋‘ ๋ฒˆ์งธ ์‹์˜ ๋ณต์žกํ•จ์„ ๋œ์–ด๋‚ด๊ณ  ๊ฐ„๋‹จํžˆ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ณด์™„ํ•œ ๊ฒƒ์ด๋‹ค.

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ์ด์™ธ์— ์‚ฌ์šฉ๋˜๋Š” ์‚ฌ๋ก€

๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋Š” ๋„ทํ”Œ๋ฆญ์Šค์—์„œ ๋น„์Šทํ•œ ์„ฑํ–ฅ์„ ๋ณด์ธ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ์˜ํ™”๋ฅผ ์ถ”์ฒœํ•ด์ค„ ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ์„ธ์„ธํ•œ ๊ณผ์ •์„ ์‚ดํŽด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ํŠน์ •ํ•œ ์˜ํ™”๋ฅผ ๋ณด๊ณ  A๋ผ๋Š” ์‚ฌ๋žŒ์ด ์ข‹์•„์š”๋ฅผ ๋ˆ„๋ฅด๊ณ , B๋ผ๋Š” ์‚ฌ๋žŒ๋„ ์ข‹์•„์š”๋ฅผ ๋ˆŒ๋ €๋‹ค๋ฉด A์™€ B๋Š” ๋น„์Šทํ•œ ์„ฑํ–ฅ์„ ๊ฐ€์ง„ ์‚ฌ๋žŒ์ด๋ผ๊ณ  ์ผ์ฐจ์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
  • ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ์˜ํ™”๋ฅผ ๋ณด๊ณ ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๊ฒฐ๋ก ๋“ค์„ ๋ณด์˜€๋‹ค๋ฉด, ๋ณต์žกํ•ด์ง„๋‹ค.
  • ํ™•๋ฅ ์ ์œผ๋กœ A์™€ B๊ฐ€ ์ข‹์•„ํ•œ๋‹ค๊ณ  ํ‘œํ˜„ํ•œ ์˜ํ™”๋“ค, ๋ณ„๋กœ๋ผ๊ณ  ํ‘œํ˜„ํ•œ ์˜ํ™”๋“ค์˜ ๋ฐ์ดํ„ฐ์™€ ๋‹จ์ˆœ ์˜ํ™” ๋ฆฌ์ŠคํŠธ๋ฟ ์•„๋‹ˆ๋ผ, ๊ทธ ์˜ํ™”๋“ค์— ์ถœ์—ฐํ•œ ๋ฐฐ์šฐ๋“ค, ์˜ํ™” ์žฅ๋ฅด, ์Šคํƒ€์ผ ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ๋ถ„์„ ๋ฐ์ดํ„ฐ๋“ค์„ ๊ฐ์•ˆํ•˜๊ฒŒ ๋˜๋ฉด, ๊ฐ๊ฐ A๋ผ๋Š” ์‚ฌ๋žŒ๊ณผ B๋ผ๋Š” ์‚ฌ๋žŒ์ด ํŠน์ • ์˜ํ™”๋ฅผ ์ข‹์•„ํ•  ๋งŒํ•œ ํ™•๋ฅ ์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ๋ณต์žกํ•œ ๋‹ค์ฐจ์›์˜ ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค.
  • ์ด๊ฒƒ์„ ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์จ์„œ ๊ฐ๊ฐ์˜ ์˜ํ™”, ๋ฐฐ์šฐ, ์žฅ๋ฅด, ์Šคํƒ€์ผ ๋“ฑ์˜ ๊ฐ ์š”์†Œ๋“ค์— ๋Œ€ํ•ด A, B ๋ฟ ์•„๋‹ˆ๋ผ ์ˆ˜๋งŽ์€ ์‚ฌ๋žŒ๋“ค์ด ์ง€์†์ ์ธ ์ข‹์•„ํ•  ํ™•๋ฅ ๊ฐ’์„ ๊ณ„์‚ฐํ•˜๊ณ , ๋น„์Šทํ•œ ์„ฑํ–ฅ์˜ ์‚ฌ๋žŒ๋“ค์„ ๋ถ„๋ฅ˜ํ•œ๋‹ค.
  • ๊ฒฐ๋ก ์ ์œผ๋กœ ์ƒˆ๋กœ์šด C๋ผ๋Š” ์‚ฌ๋žŒ์ด ๋„ทํ”Œ๋ฆญ์Šค์— ๊ฐ€์ž…ํ•ด ์ƒˆ๋กœ์šด ์˜ํ™”๋ฅผ ์ถ”์ฒœ ๋ฐ›์„ ๋•Œ, ๊ธฐ์กด์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์„ฑํ–ฅ์„ ๋ณด์ด๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์ข‹์€ ํ‰๊ฐ€๋ฅผ ๋ฐ›์•˜๋˜ ์˜ํ™”๋ฅผ ์ œ๊ณตํ•˜๋ฉด ์„ฑ๊ณตํ•  ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์„ ๊ฒƒ์ด๋ž€ ๊ณ„์‚ฐ์ด ๋‚˜์˜จ๋‹ค

์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ ์ฝ˜ํ…์ธ ๋‚˜ ์ƒํ’ˆ์ถ”์ฒœ์— ์“ฐ์ด๊ฑฐ๋‚˜ ๊ธฐํƒ€ ์ด๋ฉ”์ผ ์ŠคํŒธ ๋ถ„๋ฅ˜, ๋ณด์•ˆ ๋ถ„์•ผ์—์„œ์˜ ์ด์ƒ์ง•ํ›„ ํƒ์ง€, ์•”์ด๋‚˜ ์‹ฌ์žฅ๋ณ‘ ๋“ฑ ์˜ํ•™๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•œ ์งˆ๋ณ‘์ง„๋‹จ, ๋ฌธ์„œ ๋ถ„๋ฅ˜ ๋“ฑ์— ์•„์ฃผ ๋‹ค์–‘ํ•˜๊ฒŒ ์“ฐ์ธ๋‹ค.

 

 

๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์žฅ์ ๊ณผ ๋‹จ์ 

๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ ์ž‘์—…์ด ์ด๋ฃจ์–ด์ง€๊ณ  ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ถ„๋ฅ˜ ํ•ญ๋ชฉ์„ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์  ๊ทธ๋ฆฌ๊ณ  ํŠนํžˆ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์ฐจ์›์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•  ๊ฒฝ์šฐ, ๋ชจํ˜•์˜ ์„ค๋ช…๋ ฅ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋งŽ์•„์ง€๋Š” ์ฐจ์›์˜ ์ €์ฃผ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค.

ํ•˜์ง€๋งŒ ๋ชจ๋“  ๋…๋ฆฝ๋ณ€์ˆ˜๋Š” ๋™๋“ฑํ•˜๊ฒŒ ์ค‘์š”ํ•˜๊ณ  ๋…๋ฆฝ์ ์ด๋ผ๋Š” ๊ฐ€์ •์— ์˜์กดํ•˜๋Š” ๋‹จ์ ์„ ๊ฐ–๊ณ  ์žˆ๋‹ค.

 

 

3. KNN(k-nearest neighbor)

๊ฐœ์š”

๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋น„์Šทํ•œ ํŠน์„ฑ์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋Š” ๋น„์Šทํ•œ ๋ฒ”์ฃผ์— ์†ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ๊ฐ€์ •ํ•˜์— ์‚ฌ์šฉ๋œ๋‹ค.

์œ„์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋นจ๊ฐ„์ƒ‰ ์„ธ๋ชจ ๋ฐ์ดํ„ฐ๋Š” ์ดˆ๋ก์ƒ‰ ๊ทธ๋ฃน๊ณผ ๋…ธ๋ž€์ƒ‰ ๊ทธ๋ฃน ์ค‘ ์–ด๋””์— ์†ํ• ๊นŒ?

์ฃผ๋ณ€์— ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋“ค์ด ๋ชจ๋‘ ๋…ธ๋ž€์ƒ‰์ด๊ธฐ์— "๋…ธ๋ฝ์ƒ‰ ๊ทธ๋ฃน์— ์†ํ•  ๊ฒƒ์ด๋‹ค"๋ผ๊ณ  ์ถ”์ธกํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด์ฒ˜๋Ÿผ ์ฃผ๋ณ€์˜ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด K๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ์†ํ•  ๊ทธ๋ฃน์„ ํŒ๋‹จํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

๊ฐ„๋‹จํ•œ ์›๋ฆฌ์ด์ง€๋งŒ, ์‹ค์ œ๋กœ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ, ๊ธ€์ž/์–ผ๊ตด ์ธ์‹, ์ถ”์ฒœ ์•Œ๊ณ ๋ฆฌ์ฆ˜, ์˜๋ฃŒ ๋ถ„์•ผ ๋“ฑ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค.

 

NN(nearest neighbor)

K-NN์—์„œ NN์€ ๋ฌด์—‡์ผ๊นŒ. 

์ด๋Š” ์ตœ๊ทผ์ ‘ ์ด์›ƒ์„ ์‚ฌ์šฉํ•œ ๋ถ„๋ฅ˜์ด๋‹ค. ๋ฒ”์ฃผ๋ฅผ ์•Œ์ง€ ๋ชปํ•˜๋Š” ๊ฐœ์ฒด์˜ ๋ฒ”์ฃผ๋ฅผ ๋ถ„๋ฅ˜๋˜์–ด ์žˆ๋Š” ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๊ฐœ์ฒด์˜ ๋ฒ”์ฃผ๋กœ ์ง€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ฆ‰, ์ด์— K๊ฐœ์˜ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด, ์ตœ๊ทผ์ ‘ ์ด์›ƒ์„ ์ด์šฉํ•˜์—ฌ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์— ์žˆ๋Š” ํ‘œ๋ณธ ๊ฐ„ ์œ ์‚ฌ๋„์— ๋”ฐ๋ผ ๋ผ๋ฒจ์ด ์ง€์ •๋˜์ง€ ์•Š์€ ํ‘œ๋ณธ๋“ค์„ ๋งค์šฐ ์ง๊ด€์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค๋ฉด K-NN ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

 

์œ ์‚ฌ๋„ ์ธก์ • ๋ฐฉ๋ฒ•

์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐ๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ๋Š”๋ฐ ์ฃผ๋กœ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ(Euclidean distance)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

ํ•˜์ง€๋งŒ ๋ฌด์กฐ๊ฑด ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ ์ธก์ • ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ž์ œํ•ด์•ผ ํ•˜๋Š”๋ฐ, ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์—ด์„ ์ด์ฒ˜๋Ÿผ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด ์ƒ๊ฐํ•˜์ง€ ๋ชปํ•œ ๋ณ€์ˆ˜์— ์˜ํ•ด ์˜ค๋ฅ˜๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฑฐ๋ฆฌ์˜ ์ œ๊ณฑ์„ ํ•ฉ์‚ฐํ•˜๊ธฐ ์ „ ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ์— ๋Œ€ํ•œ ํ‰๊ท  ๊ฑฐ๋ฆฌ๋ฅผ ๋นผ๊ณ  ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๊ฑฐ๋ฆฌ ๊ณ„์‚ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

์˜ˆ์‹œ๋กœ ์‹ค์ˆ˜ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ ์ธก์ • ๋ฐฉ์‹ ์„ ์‚ฌ์šฉํ•˜๊ณ , ๋ฒ”์ฃผํ˜• ํ˜น์€ ์ด์ง„ ๋ฐ์ดํ„ฐ์™€ ๊ฐ™์€ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๋Š” ํ•ด๋ฐ ๊ฑฐ๋ฆฌ ์ธก์ • ๋ฐฉ์‹ ์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํŠน์ง•

์ฃผ์š” ํŠน์ง•์œผ๋กœ๋Š” ์ด๋Š” K์˜ ๊ฐ’์—  ๋ฏผ๊ฐํ•˜๊ณ  K์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค. 

์˜ˆ์‹œ๋กœ ์œ„์™€ ๊ฐ™์€ ์ƒํ™ฉ์„ ๋ณด๋ฉด k=1์ธ ๊ฒฝ์šฐ, ๋นจ๊ฐ„์ƒ‰ ์„ธ๋ชจ๋Š” ์ดˆ๋ก์ƒ‰ ๊ทธ๋ฃน์ด๋ผ๊ณ  ํŒ๋‹จ ๊ทธ๋ฆฌ๊ณ  k=3์ธ ๊ฒฝ์šฐ๋Š” ์ด๋ฅผ ๋…ธ๋ž€์ƒ‰ ๊ทธ๋ฃน์ด๋ผ๊ณ  ํŒ๋‹จํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์ตœ์ ์˜ k๊ฐ’์„ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ค‘์š”ํ•œ๋ฐ, ์ด๋Š” ๋ฐ์ดํ„ฐ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ์ด ๋ฐ์ดํ„ฐ ์ˆ˜์˜ ์ œ๊ณฑ๊ทผ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค. ๋˜ํ•œ ํ•ญ์ƒ ๋ถ„๋ฅ˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก K๋Š” ํ™€์ˆ˜๋กœ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

 

K์˜ ๊ฐ’์„ ํฌ๊ฒŒ ์ค„ ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง€๊ณ , ๊ธฐ์กด์— ๋” ๋งŽ์ด ๋ถ„๋ฅ˜๋˜์–ด ์žˆ๋Š” ์ชฝ์œผ๋กœ ํŽธํ–ฅ๋œ๋‹ค. K์˜ ๊ฐ’์ด ์ž‘์€ ๊ฒฝ์šฐ๋Š” ๊ทน๋‹จ์ ์œผ๋กœ K=1 ๋กœ, ์ด ๊ฒฝ์šฐ ์ด์ƒ์น˜ ๋ฐ์ดํ„ฐ์— ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฐ›๋Š”๋‹ค.

 

 

K-NN์˜ ์žฅ์ ๊ณผ ๋‹จ์ 

์žฅ์ ์œผ๋กœ๋Š” ๋‹จ์ˆœํ•˜๊ธฐ์— ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋น„ํ•ด ๊ตฌํ˜„ํ•˜๊ธฐ ์‰ฝ๋‹ค. ๋˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ–๊ณ  ์žˆ์–ด ํŠน๋ณ„ํ•œ ํ›ˆ๋ จ์„ ํ•˜์ง€ ์•Š๊ธฐ์— ํ›ˆ๋ จ ๋‹จ๊ณ„๊ฐ€ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰๋œ๋‹ค.

ํ•˜์ง€๋งŒ ๋‹จ์ ์œผ๋กœ๋Š” ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜์ง€ ์•Š๊ธฐ์— ํŠน์ง•๊ณผ ํด๋ž˜์Šค ๊ฐ„ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š”๋ฐ ์ œํ•œ์ ์ด๋‹ค.

๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ง€๊ณ  ํ•ด์„ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฏธ๋ฆฌ ๋ณ€์ˆ˜์™€ ํด๋ž˜์Šค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ์ด๋ฅผ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ ์šฉํ•ด์•ผ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋˜, ์ ์ ˆํ•œ K์˜ ์„ ํƒ์ด ํ•„์š”ํ•˜๊ณ , ํ›ˆ๋ จ ๋‹จ๊ณ„๊ฐ€ ๋น ๋ฅธ ๋Œ€์‹  ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์ง€๋ฉด ๋ถ„๋ฅ˜ ๋‹จ๊ณ„๊ฐ€ ๋А๋ฆฌ๋‹ค

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

์ถœ์ฒ˜

๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๊ด€๋ จ

- https://zdnet.co.kr/view/?no=20220725093548

 

[๊ธฐ๊ณ ] AI ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ 3-2, ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๊ธฐ๊ณ„ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋‘ ๋ฒˆ์งธ๋Š” ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ(Naive Bayes Classifier)๋‹ค.์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ทธ๋ฆผ 1์—์„œ ํ‘œํ˜„๋œ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์— ๊ธฐ๋ฐ˜์„ ๋‘”๋‹ค. ์ด๊ฒƒ์€ ๊ฐ๊ฐ์˜ ...

zdnet.co.kr

- https://wikidocs.net/22892

 

10-05 ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ(Naive Bayes Classifier)

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ์ „ํ†ต์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ถ„๋ฅ˜๊ธฐ๋กœ ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ๋Š” ์ธ๊ณต ์‹ ๊ฒฝ๋ง ์•Œ๊ณ ๋ฆฌ์ฆ˜์—๋Š” ์†ํ•˜์ง€ ์•Š์ง€๋งŒ, ๋จธ์‹  ๋Ÿฌ๋‹์˜ ์ฃผ์š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ …

wikidocs.net

- ๊ฐ•์„ฑ๊ด€, ๊ถŒ๋ด‰๊ฒฝ, ๊ถŒ์ฒ ์šฐ, ๋ฐ•์ƒ๋ฏผ and ์œค์ผ์ˆ˜. (2018). ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์ด์šฉํ•œ ๋Œ๋ฐœ์ƒํ™ฉ ๊ฒ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ. ํ•œ๊ตญITSํ•™ํšŒ ๋…ผ๋ฌธ์ง€, 17(6), 25-39.

 

KNN ๊ด€๋ จ

- https://rebro.kr/183

 

[๋จธ์‹ ๋Ÿฌ๋‹] K-์ตœ๊ทผ์ ‘ ์ด์›ƒ(K-NN) ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์‹ค์Šต

[๋ชฉ์ฐจ] 1. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ž€? 2. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‹ค์Šต 3. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‹ค์Šต (ํ›ˆ๋ จ ์…‹๊ณผ ๋ฐ์ดํ„ฐ ์…‹ ๋ถ„๋ฆฌ) 4. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ฃผ์˜์  1. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ž€? K-์ตœ๊ทผ์ ‘ ์ด์›ƒ(K-NN, K-Nearest Neighbor) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฐ€

rebro.kr

- ์›์น˜ํ›ˆ. "KNN์—์„œ ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„์— ๊ด€ํ•œ ๊ณ ์ฐฐ." ๊ตญ๋‚ด์„์‚ฌํ•™์œ„๋…ผ๋ฌธ ๊ณ ๋ ค๋Œ€ํ•™๊ต ๋Œ€ํ•™์›, 2019. ์„œ์šธ

- https://bangu4.tistory.com/99

 

[AI] Classification (๋ถ„๋ฅ˜) ๊ฐœ๋…๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ข…๋ฅ˜

1. Classification(๋ถ„๋ฅ˜) ๋ง ๊ทธ๋Œ€๋กœ ๋ถ„๋ฅ˜๋ฅผ ๋œปํ•˜๋Š” Classification์€ Supervised learning ์ง€๋„ํ•™์Šต์˜ ์ผ์ข…์œผ๋กœ ๊ธฐ์กด์— ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ Category ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๊ณ , ์ƒˆ๋กญ๊ฒŒ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ์˜ Category๋ฅผ ์Šค์Šค๋กœ ํŒ

bangu4.tistory.com