JiwonDev

#5 ๋ฒกํ„ฐ ๋ชจ๋ธ SMART ํ‘œ๊ธฐ๋ฒ•

by JiwonDev

# ์ •๋ณด๊ฒ€์ƒ‰์˜ ๋ฒกํ„ฐ Ranking

-> ๋ฌธ์„œ๋ฒกํ„ฐ์™€ ์งˆ์˜๋ฒกํ„ฐ์˜ TF*IDF๋ฅผ ๊ตฌํ•ด์„œ ๋‘ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๋น„๊ตํ•จ. ( ์ด ๊ฐ’์„ ๋น„๊ตํ•˜๊ธฐ ์ข‹๊ฒŒ 0~1๋กœ ์ •๊ทœํ™”)

๋ฌธ์„œ๋ฒกํ„ฐ์™€ ์งˆ์˜๋ฒกํ„ฐ์˜ TF, IDF, ์ •๊ทœํ™” ์ˆ˜์‹์„ ๋‹ค๋ฅด๊ฒŒ ์ ์šฉ ํ•  ์ˆ˜ ์žˆ์Œ.

 

# SMART ๋ฌธ์„œ๊ฒ€์ƒ‰๋ชจ๋ธ ํ‘œ๊ธฐ๋ฒ• (2008)

์ด๋ ‡๊ฒŒ ๊ฐ ์šฉ์–ด์— ์ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ < ์šฉ์–ด ๊ฐ€์ค‘์น˜ (term weighting) >๋ถ€์—ฌ๊ธฐ๋ฒ•์ด๋ผ๊ณ  ํ•œ๋‹ค..

ex) lnc.ltc (ddd.qqq)

๋ฌธ์„œ๋ฒกํ„ฐ lnc (ddd)

TF      : $ l(log) :: 1+log( tf(t,d) ) $

IDF     : $ n(natural, no) :: 1 $

์ •๊ทœํ™” : $ c(cos) :: $ ์ฝ”์‚ฌ์ธ ๊ณต์‹ (์•„๋ž˜ ์˜ˆ์ œ์—์„œ ์„ค๋ช…ํ•จ.)

 

์งˆ์˜๋ฒกํ„ฐ ltc (qqq)

TF      :  $ l  (log) -> 1+log( tf(t,d) ) $

IDF     : $ t  ( df) -> 1 $

์ •๊ทœํ™” : $ c  (cos) :: $ ์ฝ”์‚ฌ์ธ ๊ณต์‹ (์•„๋ž˜ ์˜ˆ์ œ์—์„œ ์„ค๋ช…ํ•จ.)


# ๋ฌธ์„œ์ง‘ํ•ฉ์— ์—†๋Š” ์งˆ์˜๋Š” ๊ณ„์‚ฐ์— ๋ฐ˜์˜๋˜์ง€ ์•Š๋Š”๋‹ค.

์ฐธ๊ณ ๋กœ bnn์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Bool(์กด์žฌ์—ฌ๋ถ€๋งŒ 0,1)    N( IDF ์‚ฌ์šฉ์•ˆํ•จ, ๊ฐ’*1 )    N(์ •๊ทœํ™” ์‚ฌ์šฉ์•ˆํ•จ, ๊ฐ’*1)

TF * IDF * ์ •๊ทœํ™” = ์กด์žฌํ•˜๋ฉด 1, ์•„๋‹ˆ๋ฉด 0 ์ด ๋‚˜์˜ค๋Š” ๊ณ„์‚ฐ์‹.

(๋ฐฉ์—ญ,์ฝ”๋กœ๋‚˜,ํ•œ๊ตญ)     Q=(0,0,1)    D2=(1,0,1)

์งˆ์˜์— ์‚ฌ์šฉ๋œ '๋งˆ์Šคํฌ' ๋ผ๋Š” ๋‹จ์–ด๋Š” ๋ฌธ์„œ์ง‘ํ•ฉ์— ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ '๋งˆ์Šคํฌ' ๋ฒกํ„ฐ๋Š” ๊ณ„์‚ฐ๋˜์ง€ ์•Š๋Š”๋‹ค. (๋ฒกํ„ฐ ๊ทธ๋ž˜ํ”„์˜ ์ฐจ์›์ด ๋Š˜์–ด๋‚˜์ง€ ์•Š๋Š”๋‹ค.)

๊ฒ€์ƒ‰ํ•  ๋‚ด์šฉ์ด ๋ฌธ์„œ์— ์—†์œผ๋‹ˆ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌ ๋ชปํ•œ๋‹ค๋Š” ๋‹น์—ฐํ•œ ์ด์•ผ๊ธฐ์ด์ง€๋งŒ, ํ—ท๊ฐˆ๋ฆด์ˆ˜ ์žˆ๊ธฐ์— ํ•œ๋ฒˆ ๋” ์–ธ๊ธ‰ํ•œ๋‹ค.

 


# ์ง์ ‘ ๊ณ„์‚ฐํ•ด๋ณด์ž

# lnn.ltc

๊ณต์‹

๋ฒกํ„ฐ๊ฐ’์€ TF * IDF * ์ •๊ทœํ™” ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.

$N$ ์€ ์ „์ฒด ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜

$df( T )$ ๋Š” ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ๋‚˜์˜จ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜

$tf( T , D )$ ๋Š” ๋ฌธ์„œD์—์„œ ํ•ด๋‹น ๋‹จ์–ด์˜ ์ถœํ˜„ ํšŸ์ˆ˜ ์ด๋ฏ€๋กœ ์•„๋ž˜ ๊ฐ™์ด ์‰ฝ๊ฒŒ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ฌธ์„œ ๋ฒกํ„ฐ lnn์˜ ๊ณต์‹ $ ( 1+log(tf) ) * 1 * 1 $

์งˆ์˜ ๋ฒกํ„ฐ ltn์˜ ๊ณต์‹  $ ( 1+log(tf) ) * log\frac{N}{df} * 1 $

 


# lnc.ltc

๋ฌธ์„œ ๋ฒกํ„ฐ lnc์˜ ๊ณต์‹ $ ( 1+log(tf) ) * 1 * \frac{1}{\sqrt( W_1^2 + W_2^2 + \dots + W_M^2)} $

์งˆ์˜ ๋ฒกํ„ฐ ltc์˜ ๊ณต์‹  $ ( 1+log(tf) ) * log\frac{N}{df} * \frac{1}{\sqrt( W_1^2 + W_2^2 + \dots + W_M^2)} $

 

์ฝ”์‚ฌ์ธ ๋ฒ•์น™์—์„œ $ \sqrt(  W_1^2  + W_2^2 + \dots + W_M^2 ) $ ๋ถ€๋ถ„์€

W(weight)์€ ์•ž์—์„œ ๊ตฌํ•œ TF*IDF์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ ์ด ์‹์€ ํ•ด๋‹น ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ ์ฝ”์‚ฌ์ธ ๊ณต์‹์ด๋‹ค.

๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋Š” ๊ฐ ๋ฌธ์„œ์—์„œ ์ถœํ˜„ํ•œ ๋‹จ์–ด๋“ค์˜ ๊ฐ€์ค‘์น˜(W)๋ฅผ ์ œ๊ณฑ ํ•œ ํ›„ ๋”ํ•ด์„œ ๋ฃจํŠธ๋ฅผ ์”Œ์›Œ์ค€ ๊ฐ’์ด๋‹ค.

 

์ฝ”์‚ฌ์ธ ๊ณต์‹์ด ๋“ค์–ด๊ฐ€์„œ ์–ด๋ ค์›Œ๋ณด์ด๋Š”๋ฐ, ์ง์ ‘ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด ์ƒ๊ฐ๋ณด๋‹ค ์‰ฝ๋‹ค.

1. ๋จผ์ € ln(๋ฌธ์„œ๋ฒกํ„ฐ), lt(์งˆ์˜๋ฒกํ„ฐ)๋งŒ์œผ๋กœ ๋จผ์ € ๊ฐ๊ฐ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ตฌํ•˜์ž.

2. ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ ๊ฐ€์ค‘์น˜ $\{D2(2,0,1) , Q(0,0,1)\}$๋ฅผ ์ด์šฉํ•˜์—ฌ ์งˆ์˜, ๋ฌธ์„œ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๊ตฌํ•œ๋‹ค.

๋‹จ์ˆœํžˆ ๊ฐ๊ฐ์˜ ์š”์†Œ๋“ค์„ ์ œ๊ณฑํ•œ ํ›„ ๋”ํ•œ ๋’ค ๋ฃจํŠธ๋ฅผ ์”Œ์šฐ๋ฉด ๋œ๋‹ค.

3. ๊ตฌํ•œ ๊ฐ’์„ ๋’ค์ง‘์–ด ๋ถ„์ˆ˜๋กœ ๋งŒ๋“ค์–ด์ฃผ๋ฉด ๋. log ๊ฐ’์€ ๊ตณ์ด ๊ณ„์‚ฐํ•ด์ฃผ์ง€ ์•Š์•„๋„ ๋œ๋‹ค. (๋‹จ $log(1) =0$)

 

 

 

๋ธ”๋กœ๊ทธ์˜ ์ •๋ณด

JiwonDev

JiwonDev

ํ™œ๋™ํ•˜๊ธฐ