JiwonDev

์ •๋ณด๊ฒ€์ƒ‰ #4 ๊ฒ€์ƒ‰๋ชจ๋ธ (Retrieval Models)

by JiwonDev

์•ž์—์„œ ๋ฌธ์„œ์˜ ์ƒ‰์ธ๊ณผ ๋Œ€๋žต์ ์ธ ์ •๋ณด๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋ดค๋‹ค๋ฉด,

์ด๋ฒˆ์—๋Š” ์‹ค์ œ ์ •๋ณด๊ฒ€์ƒ‰์—์„œ๋Š” ์–ด๋– ํ•œ ๋ฐฉ๋ฒ•(๊ฒ€์ƒ‰๋ชจ๋ธ)์œผ๋กœ ์งˆ์˜์™€ ๋ฌธ์„œ์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•˜๋Š”์ง€ ์•Œ์•„๋ณด์ž.

์‹ค์ œ ์ •๋ณด๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์˜ ๋™์ž‘๊ณผ์ •

๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” 4๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค.

 

1. ๋ถˆ๋ฆฐ ๋ชจ๋ธ(Boolean model)

์ง‘ํ•ฉ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋…ผ๋ฆฌ์ ์œผ๋กœ ์žˆ๋‹ค(True) ์—†๋‹ค(False)๋ฅผ ์งˆ์˜๋ฌธ์œผ๋กœ ๊ฒ€์ƒ‰ํ•œ๋‹ค.

๋ชจ๋“  ์ƒ‰์ธ์–ด๋“ค์— 0๊ณผ 1์„ ํ• ๋‹นํ•˜๊ณ  ๊ฐ Term๋“ค์„ ๋…ผ๋ฆฌ ์—ฐ์‚ฐ(and, or, not)์œผ๋กœ ์—ฐ๊ฒฐํ•œ๋‹ค.

 

2. ๋ฒกํ„ฐ ๊ณต๊ฐ„ ๋ชจ๋ธ(Vector space model)

์•ž์˜ ๋ถˆ๋ฆฐ๋ชจ๋ธ์œผ๋กœ๋Š” ์กด์žฌ ์—ฌ๋ถ€(0 ๋˜๋Š” 1)๋งŒ ์•Œ ์ˆ˜ ์žˆ๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ์ˆœ์œ„(Ranking)๋ฅผ ๋งค๊ธธ ์ˆ˜ ์—†๋‹ค.

๊ทธ๋ž˜์„œ ๊ฐ€์ค‘์น˜๋ฅผ 0~1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ด ๋ฒกํ„ฐ ๊ณต๊ฐ„ ๋ชจ๋ธ.

๊ฐ๊ฐ์˜ n๊ฐœ ์šฉ์–ด๋“ค์„ n-์ฐจ์›์˜ ๊ทธ๋ž˜ํ”„ ์ถ•(๋ฒกํ„ฐ๊ณต๊ฐ„)์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ์งˆ์˜๋ฌธ์˜ ๋ฒกํ„ฐ ๊ทธ๋ž˜ํ”„์™€ ๋ฌธ์„œ์˜ ๋ฒกํ„ฐ๊ทธ๋ž˜ํ”„์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•.

 

2-1 ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„

์ฝ”์‚ฌ์ธ์„ ์ด์šฉํ•ด์„œ ์งˆ์˜ ๊ทธ๋ž˜ํ”„์™€ ๋ฌธ์„œ ๊ทธ๋ž˜ํ”„์˜ ์‚ฌ์ž‡๊ฐ์„ ๊ตฌํ•ด 0~1 ์‚ฌ์ด ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•.

์‰ฝ๊ฒŒ๋งํ•ด ๋‘ ๋ฒกํ„ฐ ๊ทธ๋ž˜ํ”„๊ฐ€ ์™„๋ฒฝํ•˜๊ฒŒ ์ผ์น˜ํ•˜๋ฉด 1์ด, ์ง๊ฐ์œผ๋กœ ๊ต์ฐจํ•˜๋ฉด 0์ด ๋‚˜์˜ค๊ฒŒ ๋งŒ๋“ค๋ฉด ๋ฉ๋‹ˆ๋‹ค.

Cos(0') = 1

Cos(90') = 0 ์ด๋ฏ€๋กœ ์ฝ”์‚ฌ์ธ์œผ๋กœ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•˜๋ฉด ์‰ฝ๊ฒŒ ์ ์ˆ˜๋ฅผ ๋งค๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

(๊ฐ๋„๋ฅผ 0~1 ์ ์ˆ˜๋กœ ๋ฐ”๊พธ๋Š” ๊ณผ์ •์„ ์ •๊ทœํ™”, L2 Normalization ๋ผ ๋ถ€๋ฆ…๋‹ˆ๋‹ค)

 

์šฐ๋ฆฌ๋Š” ์—ฌ๊ธฐ์„œ Q์™€ D์˜ ์ขŒํ‘œ๊ฐ’์„ ์•Œ๊ณ ์žˆ๊ณ , ๊ทธ ์‚ฌ์ž‡๊ฐ์„ ๊ตฌํ•ด Cos(์‚ฌ์ž‡๊ฐ)์˜ ๊ฐ’์„ ๊ตฌํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ์ค‘ํ•™๊ต ์ˆ˜ํ•™์— ๋‚˜์˜ค๋Š” ๋‚ด์ ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ณต์‹์„ ์ด์šฉํ•˜์—ฌ Cos(์‚ฌ์ž‡๊ฐ)์„ ์‰ฝ๊ฒŒ ๊ตฌํ•ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

* [๋”๋ณด๊ธฐ] ๋‚ด์ ์ด ๋ญ”์ง€ ๊ธฐ์–ต์ด ์•ˆ๋‚˜๋Š”๋ฐ์š”?

๋”๋ณด๊ธฐ

๋‚ด์ ๊ฐ’์€ ๋‘ ๋ฒกํ„ฐ์˜ ๋ฐฉํ–ฅ์„ ๋ฌด์‹œํ•˜๊ณ , ์ ˆ๋Œ€์ ์ธ ํฌ๊ธฐ๋ฅผ ๊ตฌํ•˜๊ณ  ์‹ถ์„ ๋•Œ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ํž˜์˜ ๋ฐฉํ–ฅ๊ณผ ์ด๋™๋ฐฉํ–ฅ์ด ๊ฐ™๋‹ค๋ฉด, ์ € ๋ฌผ์ฒด๋ฅผ ์›€์ง์ด๋Š”๋ฐ ์‚ฌ์šฉ๋œ ์ผ๋Ÿ‰์€ [ F * S ]๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ํž˜์˜ ๋ฐฉํ–ฅ๊ณผ ์ด๋™๋ฐฉํ–ฅ์ด ๋‹ค๋ฅด๋‹ค๋ฉด ์ผ๋Ÿ‰์„ ์–ด๋–ป๊ฒŒ ๊ตฌํ• ๊นŒ์š”?

์ด๋•Œ ์‚ฌ์šฉํ•˜๋Š”๊ฒŒ [ F * S * Cos(๊ฐ๋„) ] ๊ฐ€ ์ผ๋Ÿ‰์ด ๋˜๊ณ , ์ด๋ฅผ ๋‘ ๋ฒกํ„ฐ F, S์˜ ๋‚ด์ ๊ฐ’์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

๋ฒกํ„ฐ์˜ ๋‚ด์ ๊ฐ’์€ ์˜จ์ ์„ ์ด์šฉํ•˜์—ฌ ํ‘œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๋‹จ, ์—ฌ๊ธฐ์„œ ๋ฒกํ„ฐ์˜ ๋ฐฉํ–ฅ์ด ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์ธ ๊ฒฝ์šฐ ์Œ์ˆ˜๊ฐ€ ๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ ˆ๋Œ€๊ฐ’์„ ์”Œ์›Œ์ฃผ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. (๊ณ„์‚ฐํ• ๋•Œ์—๋Š” ์ œ๊ณฑ์„ ํ•œ ํ›„ ๋ฃจํŠธ๋ฅผ ์”Œ์›Œ ์–‘์ˆ˜๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.)

๋ฒกํ„ฐ์˜ ๋‚ด์ ๊ฐ’ = F * S * Cos(๊ฐ๋„)

๊ทธ๋ฆฌ๊ณ  ๋‚ด์ ๊ฐ’์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ๋„ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 F * S * cos(๊ฐ๋„)์˜ ๊ฐ’๊ณผ ์œ„์˜ ๊ณต์‹์ด ์™œ ๊ฐ™๋ƒ๊ตฌ์š”? ๊ถ๊ธˆํ•˜๋ฉด ์•„๋ž˜ ๋งํฌ๋ฅผ ํ†ตํ•ด ์œ ๋„๊ณผ์ •์„ ์‚ดํŽด๋ด…์‹œ๋‹ค.

 

๋ฒกํ„ฐ์˜ ๋‚ด์  ๊ณต์‹ ์œ ๋„ํ•˜๊ธฐ

๋ฒกํ„ฐ์˜ ๋‚ด์ ์ด๋ž€? ๋‘ ๋ฒกํ„ฐ์˜ ๋‚ด์  ๊ฒฐ๊ณผ ๊ฐ’์€ ์Šค์นผ๋ผ ๊ฐ’์ด ๋‚˜์˜ค๋ฉฐ ์„ธํƒ€ ๊ฐ’์€ ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฐ์„ ๋œป ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ž˜ํ”ฝ์Šค์—์„œ๋Š” ์ด ์„ธํƒ€ ๊ฐ’์ด 0์ธ์ง€ ์•„๋‹Œ์ง€๋งŒ ๊ธฐ์–ตํ•˜์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค. [0์ด๋ฉด ๋‘ ๋ฒกํ„ฐ๋Š”

sonagi87174.tistory.com

 

 

์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋Š” ๋‘ ๋ฒกํ„ฐ ๊ฐ„์˜ ์ฝ”์‚ฌ์ธ ๊ฐ๋„๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๋‘ ๋ฒกํ„ฐ์˜ ์œ ์‚ฌ๋„๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒกํ„ฐ์˜ ๋ฐฉํ–ฅ์ด ์™„์ „ํžˆ ๋™์ผํ•œ ๊ฒฝ์šฐ์—๋Š” 1์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ, 90°์˜ ๊ฐ์„ ์ด๋ฃจ๋ฉด 0, 180°๋กœ ๋ฐ˜๋Œ€์˜ ๋ฐฉํ–ฅ์„ ๊ฐ€์ง€๋ฉด -1์˜ ๊ฐ’์„ ๊ฐ–๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฒฐ๊ตญ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋Š” -1 ์ด์ƒ 1 ์ดํ•˜์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ ๊ฐ’์ด 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์œ ์‚ฌ๋„๊ฐ€ ๋†’๋‹ค๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•˜๋ฉด ๋‘ ๋ฒกํ„ฐ๊ฐ€ ๊ฐ€๋ฆฌํ‚ค๋Š” ๋ฐฉํ–ฅ์ด ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ๊ฐ€๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ณต์‹, ๋‚ด์  ๊ณต์‹์—์„œ Cos๊ฐ’์„ ๊ตฌํ•œ ๊ฒƒ ์ž…๋‹ˆ๋‹ค.

Q = (x,y,z)    D=(a,b,c) ๋ผ๊ณ  ๊ฐ€์ •ํ•ด๋ด…์‹œ๋‹ค.

๋ถ„์ž๋Š” ๋ฐฑํ„ฐ์˜ ๋‚ด์  ๊ณต์‹์„ ์ด์šฉํ•ด์„œ ๊ฐ™์€ ์œ„์น˜์— ์žˆ๋Š” ์ขŒํ‘œ๋ฅผ ๊ณฑํ•ด์„œ ๋”ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

    (x,y,z) * (a,b,c) = (x*a + y*b + z*c)

๋ถ„๋ชจ |A| ๋Š” A ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, ๊ฐ ์„ฑ๋ถ„๋“ค์„ ์ œ๊ณฑํ•˜์—ฌ ๋” ํ•ด์ค€ ํ›„, ๋งˆ์ง€๋ง‰์— ๋ฃจํŠธ(sqrt)๋ฅผ ์”Œ์›Œ์ฃผ๋ฉด ๋ฉ๋‹ˆ๋‹ค. 

    sqrt(x^2 + y^2 + z^2) * sqrt(a^2 + b^2 + c^2)

 

๊ฐ๊ฐ์˜ n๊ฐœ ์šฉ์–ด๋“ค์„ n๊ฐœ์˜ ์ถ•์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์งˆ์˜๋ฌธ๊ณผ ๋ฌธ์„œ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค ์‚ฌ์ž‡๊ฐ์„ ๋น„๊ตํ•œ๋‹ค. 

 

2-2 ์ด์ง„๋ฒกํ„ฐ ํ‘œํ˜„

์œ„์˜ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ์˜ˆ์ œ์—์„œ๋Š” ๊ณ„์‚ฐ์˜ ํŽธ์˜์„ฑ์„ ์œ„ํ•ด Q์™€ D๊ทธ๋ž˜ํ”„๋ฅผ ์ด์ง„๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜์˜€๋‹ค.

์‰ฝ๊ฒŒ ๋งํ•ด ์žˆ์œผ๋ฉด 1, ์—†์œผ๋ฉด 0์œผ๋กœ ์งˆ์˜์™€ ๋ฌธ์„œ์˜ ์ขŒํ‘œ(๋ฒกํ„ฐ ๊ทธ๋ž˜ํ”„)๋ฅผ ์ฐ์—ˆ๋‹ค.

 

 

2-3 TF-IDF ๋ฒกํ„ฐํ‘œํ˜„

์ด๋ฅผ ์•ž์—์„œ ๋ฐฐ์šด TF-IDF๋กœ ๋ฒกํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜์—ฌ ๋” ๋‚˜์€ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•ด๋ณด์ž.

๋‹จ์ˆœ 0,1์ด ์•„๋‹ˆ๋ผ TF-IDF๋ฅผ ์ด์šฉํ•˜์—ฌ Q์™€ D์˜ ์ขŒํ‘œ(๋ฒกํ„ฐ ๊ทธ๋ž˜ํ”„)๋ฅผ ์ฐ์–ด์ฃผ์—ˆ๋‹ค. ์˜ค๋ฅธ์ชฝ ์•„๋ž˜๋Š” ์œ ์‚ฌ๋„ ๊ฐ’ ๊ณ„์‚ฐ

 

ํ€ด์ฆˆ

๋‹ค์Œ์€ ์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ C={D1,D2,D3,D4}๋ฅผ ๋ณด์ธ ๊ฒƒ์ด๋‹ค. ์•„๋ž˜ ๊ฐ ๋ฌผ์Œ์— ๋‹ตํ•˜์‹œ์˜ค.
- ๋ฒกํ„ฐ๊ณต๊ฐ„๋ชจ๋ธ์— ์„œ ์ƒ‰์ธ์šฉ์–ด๋“ค์€ ๊ฐ์—ผ,๋งˆ์Šคํฌ,๋ฐ”์ด๋Ÿฌ์Šค,๋ถ€์กฑ,์ˆ˜์ž…,์˜ˆ๋ฐฉ ์ˆœ์œผ๋กœ ๋ฒกํ„ฐ์„ฑ๋ถ„์— ๋Œ€์‘(๊ฐ์—ผ์ด ์ฒซ๋ฒˆ์งธ ๋ฒกํ„ฐ ์„ฑ๋ถ„์— ๋Œ€์‘)ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์‹œ์˜ค.

D1=[๊ฐ์—ผ, ๊ฐ์—ผ, ์˜ˆ๋ฐฉ, ๋งˆ์Šคํฌ],   D2=[๋งˆ์Šคํฌ, ์ˆ˜์ž…],   D3=[๋งˆ์Šคํฌ, ์žฌ๊ณ , ๋ถ€์กฑ],   D4=[๋ฐ”์ด๋Ÿฌ์Šค, ๊ฐ์—ผ]

1. ์œ„ ์ „์ฒด๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ๋ถˆ๋ฆฌ์–ธ ์งˆ์˜ Q="๋งˆ์Šคํฌ AND (๊ฐ์—ผ OR ๋ถ€์กฑ)"์˜ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋ฅผ ๊ณ„์‚ฐ๊ณผ ์ •๊ณผ ํ•จ๊ป˜ ํ‘œ์‹œํ•˜์‹œ์˜ค. (๋ถˆ๋ฆฌ์–ธ๊ฒ€์ƒ‰๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๊ฒƒ)
๋”๋ณด๊ธฐ
Q = ๋งˆ์Šคํฌ and (๊ฐ์—ผ or ๋ถ€์กฑ)
๋ถˆ๋ฆฌ์–ธ ๋ชจ๋ธ์€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€ (0 ๋˜๋Š” 1)๋กœ๋งŒ ํŒ๋‹จํ•˜์—ฌ ๋…ผ๋ฆฌ๊ณ„์‚ฐํ•œ๋‹ค.

Set(์งˆ์˜๋ฌธ) = { ํ•ด๋‹น๋˜๋Š” ๋ฌธ์„œ }
S(๋งˆ์Šคํฌ) = { D1,D2,D3 }
S(๊ฐ์—ผ) = { D1,D4 }
S(๋ถ€์กฑ) = { D3 }

S(๊ฐ์—ผ) or S(๋ถ€์กฑ)
= { D1, D4 } or { D3 }
= { D1, D2, D3 }

S(๋งˆ์Šคํฌ) and { S(๊ฐ์—ผ) or S(๋ถ€์กฑ) }
= { D1,D2,D3 } and { D1, D2, D3 }
= { D1, D3 }

2. ์งˆ์˜ Q=[๋งˆ์Šคํฌ, ๋งˆ์Šคํฌ, ๊ฐ์—ผ]์— ๋Œ€ํ•ด Q์™€ D1์˜ ์ด์ง„๋ฒกํ„ฐํ‘œํ˜„์„ ์•„๋ž˜ ํ‘œ์— ์ ๊ณ , ์ด ๋ฒกํ„ฐํ‘œํ˜„ ์— ๊ธฐ๋ฐ˜ํ•œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ cos(Q,D1)์˜ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค.
  ๊ฐ์—ผ ๋งˆ์Šคํฌ ๋ฐ”์ด๋Ÿฌ์Šค ๋ถ€์กฑ ์ˆ˜์ž… ์˜ˆ๋ฐฉ
Q            
D1            
๋”๋ณด๊ธฐ

์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ๋ฐฉ๋ฒ• ( Q = [1,1] D2 = [1,0] ์ธ ๊ฒฝ์šฐ )

๋ฃจํŠธ๋Š” sqrt( ) ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

Q=[๋งˆ์Šคํฌ,๋งˆ์Šคํฌ, ๊ฐ์—ผ]    D1=[๊ฐ์—ผ, ๊ฐ์—ผ, ์˜ˆ๋ฐฉ, ๋งˆ์Šคํฌ] ์ด๋ผ๊ณ  ๋ฌธ์ œ์—์„œ ๋งํ–ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ์ด์ง„๋ฒกํ„ฐ ํ‘œํ˜„์€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€(1,0)์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋œ๋‹ค.

ํ‘œ Q = (1,1,0,0,0,0)
ํ‘œ D1 = (1,1,0,0,0,1)

 

|Q| = sqrt(1+1+0+0+0+0) 1^2์€ 1์ด๋ผ์„œ ์ œ๊ณฑ์ƒ๋žต.

|D1| = sqrt(3)

 

cos(Q,D1) = (1*1) + (1*0) / (sqrt(2) * sqrt(3))

= 2 / (sqrt(2) * sqrt(3)), ๋‹น์—ฐํ•œ๊ฑฐ์ง€๋งŒ ๋ฃจํŠธ๊ฐ’์€ ๊ณ„์‚ฐํ•˜์ง€ ์•Š๊ณ  ๊ทธ๋ƒฅ ๋ถ„์ˆ˜ ํ˜•ํƒœ๋กœ ์ ์œผ์…”๋„ ๋ฉ๋‹ˆ๋‹ค.


 

3. ์งˆ์˜ Q=[๋งˆ์Šคํฌ, ๋งˆ์Šคํฌ, ๊ฐ์—ผ]์— ๋Œ€ํ•ด Q์™€ D1์˜ tf๋ฒกํ„ฐํ‘œํ˜„์„ ์•„๋ž˜ ํ‘œ์— ์ ๊ณ , ์ด ๋ฒกํ„ฐํ‘œํ˜„์— ๊ธฐ๋ฐ˜ํ•œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ cos(Q,D1)์˜ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค. tf ๊ฐ’์œผ๋กœ raw tf๋ฅผ ์‚ฌ์šฉํ•˜์‹œ์˜ค.
  ๊ฐ์—ผ ๋งˆ์Šคํฌ ๋ฐ”์ด๋Ÿฌ์Šค ๋ถ€์กฑ ์ˆ˜์ž… ์˜ˆ๋ฐฉ
Q            
D1            
๋”๋ณด๊ธฐ

Q=[๋งˆ์Šคํฌ,๋งˆ์Šคํฌ, ๊ฐ์—ผ]    D1=[๊ฐ์—ผ, ๊ฐ์—ผ, ์˜ˆ๋ฐฉ, ๋งˆ์Šคํฌ] ์ด๋ผ๊ณ  ๋ฌธ์ œ์—์„œ ๋งํ–ˆ๋‹ค.

์—ฌ๊ธฐ์„œ tf(Q,D1) ์œผ๋กœ ํ‘œํ˜„ํ•ด๋ผ๊ณ  ํ–ˆ์œผ๋‹ˆ, ๋‹จ์–ด์˜ ๊ฐฏ์ˆ˜๋ฅผ ์„ธ๋ฉด ๋œ๋‹ค.

ํ‘œ Q = (1,2,0,0,0,0)

ํ‘œ D1 = (2,1,0,0,0,1)

 

|Q| = sqrt(1+4+0+0+0+0)

|D1| = sqrt(4+1+0+0+0+1)

 

cos(Q,D1) = (1*2)+(2*1)+0+0+0+(0*1) / |Q||D1|

cos(Q,D1) = 4/ sqrt(5) * sqrt(6)


4. ์งˆ์˜ Q=[๋งˆ์Šคํฌ, ๋งˆ์Šคํฌ, ๊ฐ์—ผ]์— ๋Œ€ํ•ด Q์™€ D1์˜ idf๋ฒกํ„ฐํ‘œํ˜„์„ ์•„๋ž˜ ํ‘œ์— ์ ๊ณ , ์ด ๋ฒกํ„ฐํ‘œํ˜„ ์— ๊ธฐ๋ฐ˜ํ•œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ cos(Q,D1)์˜ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค. idf๋Š” ์šฉ์–ด t์— ๋Œ€ํ•ด log(N/df(t))๋กœ ๊ณ„์‚ฐํ•˜์‹œ์˜ค.
  ๊ฐ์—ผ ๋งˆ์Šคํฌ ๋ฐ”์ด๋Ÿฌ์Šค ๋ถ€์กฑ ์ˆ˜์ž… ์˜ˆ๋ฐฉ
Q            
D1            
๋”๋ณด๊ธฐ

Q=[๋งˆ์Šคํฌ,๋งˆ์Šคํฌ, ๊ฐ์—ผ]   
D1=[๊ฐ์—ผ, ๊ฐ์—ผ, ์˜ˆ๋ฐฉ, ๋งˆ์Šคํฌ],   D2=[๋งˆ์Šคํฌ, ์ˆ˜์ž…],   D3=[๋งˆ์Šคํฌ, ์žฌ๊ณ , ๋ถ€์กฑ],   D4=[๋ฐ”์ด๋Ÿฌ์Šค, ๊ฐ์—ผ]

์ž ์ด์ œ log(N/df(t))๋กœ ๊ณ„์‚ฐํ•ด๋ผ๊ณ  ํ–ˆ์œผ๋‹ˆ ๊ทธ๋ ‡๊ฒŒ ํ•˜๋ฉด ๋œ๋‹ค. 
์ฐธ๊ณ ๋กœ df(๋‹จ์–ด) ๋Š” ์ „์ฒด๋ฌธ์„œ์—์„œ ํ•ด๋‹น ๋‹จ์–ด๋ฅผ ํ•˜๋‚˜๋ผ๋„ ๊ฐ€์ง„ ๋ฌธ์„œ์˜ ๊ฐฏ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. 

ํ‘œ Q = ( log(4/2), log(4/3), 0, 0, 0, 0 )

ํ‘œ D1 = ( log(4/2), log(4/3), 0, 0, 0, log(4/1) )

 

์ดํ›„๋Š” ์ˆ˜์‹๋งŒ ๋ณต์žกํ•  ๋ฟ, ์ถฉ๋ถ„ํžˆ ํ•  ์ˆ˜ ์žˆ์„๊ฑฐ๋ผ ์ƒ๊ฐ์ด ๋“ ๋‹ค.


5. ์งˆ์˜ Q=[๋งˆ์Šคํฌ, ๋งˆ์Šคํฌ, ๊ฐ์—ผ]์— ๋Œ€ํ•ด Q์™€ D1์˜ tf*idf๋ฒกํ„ฐํ‘œํ˜„์„ ์•„๋ž˜ ํ‘œ์— ์ ๊ณ , ์ด ๋ฒกํ„ฐํ‘œ ํ˜„์— ๊ธฐ๋ฐ˜ํ•œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ cos(Q,D1)์˜ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค. ์šฉ์–ด t์˜ tf ๊ฐ’์€ 1+log(tf(t))๋กœ ๊ณ„ ์‚ฐํ•˜๊ณ , idf ๊ฐ’์€ log(N/df(t))๋กœ ๊ณ„์‚ฐํ•˜์‹œ์˜ค.
  ๊ฐ์—ผ ๋งˆ์Šคํฌ ๋ฐ”์ด๋Ÿฌ์Šค ๋ถ€์กฑ ์ˆ˜์ž… ์˜ˆ๋ฐฉ
Q            
D1            
๋”๋ณด๊ธฐ

Q=[๋งˆ์Šคํฌ,๋งˆ์Šคํฌ, ๊ฐ์—ผ]   
D1=[๊ฐ์—ผ, ๊ฐ์—ผ, ์˜ˆ๋ฐฉ, ๋งˆ์Šคํฌ],   D2=[๋งˆ์Šคํฌ, ์ˆ˜์ž…],   D3=[๋งˆ์Šคํฌ, ์žฌ๊ณ , ๋ถ€์กฑ],   D4=[๋ฐ”์ด๋Ÿฌ์Šค, ๊ฐ์—ผ]

tf = 1+log(tf(t))
idf = log(N/df(t))
์“ฐ๋ž€๋‹ค. ใ…‡ใ…‹?

Q = TF(Q,D1) * IDF(Q)

Q = ( (1+log(1)) * log(4/2), (1+log(2)) * log(4/3), 0, 0, 0, 0)

D1 =( (1+log(1)) * log(4/2), (1+log(2)) * log(4/3), 0, 0, 0, (1+log(1)) * log(4/1)) 


๋‹ค์Œ์€ ์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ C={D1,D2,D3,D4,D5}๋ฅผ ๋ณด์ธ ๊ฒƒ์ด๋‹ค. ๊ฐ ๋ฌธ์„œ๋Š” ์ƒ‰์ธ์šฉ์–ด๋“ค์˜ ๋‚˜์—ด์„ ํ‘œํ˜„ ํ•œ ๊ฒƒ์œผ๋กœ ๊ฐ€์ •(์ฆ‰, a,b,c,d๋ฅผ ์ƒ‰์ธ ์šฉ์–ด๋กœ ๊ณ ๋ ค)ํ•˜๊ณ  ์•„๋ž˜ ๊ฐ ๋ฌผ์Œ์— ๋‹ตํ•˜์‹œ์˜ค. ๋ฒกํ„ฐ๊ณต๊ฐ„๋ชจ๋ธ์—์„œ ์ƒ‰์ธ์šฉ์–ด๋“ค์€ a,b,c,d ์ˆœ์œผ๋กœ ๋ฒกํ„ฐ์„ฑ๋ถ„์— ๋Œ€์‘(a๊ฐ€ ์ฒซ๋ฒˆ์งธ ๋ฒกํ„ฐ์„ฑ๋ถ„์— ๋Œ€์‘)ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์‹œ์˜ค.

D1=[a,a,a,b],   D2=[c,d],   D3=[a,b,c],   D4=[a,c],   D5=[a,c,c]

6. ์งˆ์˜ Q=[a,c]์— ๋Œ€ํ•ด Q์™€ D1์˜ ์ด์ง„๋ฒกํ„ฐํ‘œํ˜„์„ ์•„๋ž˜ ํ‘œ์— ์ ๊ณ , ์ด ๋ฒกํ„ฐํ‘œํ˜„์— ๊ธฐ๋ฐ˜ํ•œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ cos(Q,D1)์˜ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค.
  a b c d
Q        
D1        
๋”๋ณด๊ธฐ

Q=[a,c]
D1=[a,a,a,b],   D2=[c,d],   D3=[a,b,c],   D4=[a,c],   D5=[a,c,c]

 

์ด์ง„๋ฒกํ„ฐ (0 ๋˜๋Š” 1)๋กœ ํ‘œํ˜„.

cos(Q,D1) ์„ ๊ตฌํ•˜๋ผ


7. ์งˆ์˜ Q=[a,c]์— ๋Œ€ํ•ด Q์™€ D1์˜ tf๋ฒกํ„ฐํ‘œํ˜„์„ ์•„๋ž˜ ํ‘œ์— ์ ๊ณ , ์ด ๋ฒกํ„ฐํ‘œํ˜„์— ๊ธฐ๋ฐ˜ํ•œ ์ฝ”์‚ฌ์ธ ์œ  ์‚ฌ๋„ cos(Q,D1)์˜ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค.
  a b c d
Q        
D1        
๋”๋ณด๊ธฐ

Q=[a,c]
D1=[a,a,a,b],   D2=[c,d],   D3=[a,b,c],   D4=[a,c],   D5=[a,c,c]

 

tf๋กœ ํ‘œํ˜„.

cos(Q,D1) ์„ ๊ตฌํ•˜๋ผ

 

 

๋ธ”๋กœ๊ทธ์˜ ์ •๋ณด

JiwonDev

JiwonDev

ํ™œ๋™ํ•˜๊ธฐ