#5 ๋ฒกํฐ ๋ชจ๋ธ SMART ํ๊ธฐ๋ฒ
by JiwonDev# ์ ๋ณด๊ฒ์์ ๋ฒกํฐ Ranking
-> ๋ฌธ์๋ฒกํฐ์ ์ง์๋ฒกํฐ์ TF*IDF๋ฅผ ๊ตฌํด์ ๋ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๋น๊ตํจ. ( ์ด ๊ฐ์ ๋น๊ตํ๊ธฐ ์ข๊ฒ 0~1๋ก ์ ๊ทํ)
๋ฌธ์๋ฒกํฐ์ ์ง์๋ฒกํฐ์ TF, IDF, ์ ๊ทํ ์์์ ๋ค๋ฅด๊ฒ ์ ์ฉ ํ ์ ์์.
# SMART ๋ฌธ์๊ฒ์๋ชจ๋ธ ํ๊ธฐ๋ฒ (2008)
ex) lnc.ltc (ddd.qqq)
๋ฌธ์๋ฒกํฐ lnc (ddd)
TF : $ l(log) :: 1+log( tf(t,d) ) $
IDF : $ n(natural, no) :: 1 $
์ ๊ทํ : $ c(cos) :: $ ์ฝ์ฌ์ธ ๊ณต์ (์๋ ์์ ์์ ์ค๋ช ํจ.)
์ง์๋ฒกํฐ ltc (qqq)
TF : $ l (log) -> 1+log( tf(t,d) ) $
IDF : $ t ( df) -> 1 $
์ ๊ทํ : $ c (cos) :: $ ์ฝ์ฌ์ธ ๊ณต์ (์๋ ์์ ์์ ์ค๋ช ํจ.)
# ๋ฌธ์์งํฉ์ ์๋ ์ง์๋ ๊ณ์ฐ์ ๋ฐ์๋์ง ์๋๋ค.
์ฐธ๊ณ ๋ก bnn์ ๋ค์๊ณผ ๊ฐ๋ค.
Bool(์กด์ฌ์ฌ๋ถ๋ง 0,1) N( IDF ์ฌ์ฉ์ํจ, ๊ฐ*1 ) N(์ ๊ทํ ์ฌ์ฉ์ํจ, ๊ฐ*1)
TF * IDF * ์ ๊ทํ = ์กด์ฌํ๋ฉด 1, ์๋๋ฉด 0 ์ด ๋์ค๋ ๊ณ์ฐ์.
์ง์์ ์ฌ์ฉ๋ '๋ง์คํฌ' ๋ผ๋ ๋จ์ด๋ ๋ฌธ์์งํฉ์ ์กด์ฌํ์ง ์์ผ๋ฏ๋ก '๋ง์คํฌ' ๋ฒกํฐ๋ ๊ณ์ฐ๋์ง ์๋๋ค. (๋ฒกํฐ ๊ทธ๋ํ์ ์ฐจ์์ด ๋์ด๋์ง ์๋๋ค.)
๊ฒ์ํ ๋ด์ฉ์ด ๋ฌธ์์ ์์ผ๋ ์ ์๋ฅผ ๋ถ์ฌ ๋ชปํ๋ค๋ ๋น์ฐํ ์ด์ผ๊ธฐ์ด์ง๋ง, ํท๊ฐ๋ฆด์ ์๊ธฐ์ ํ๋ฒ ๋ ์ธ๊ธํ๋ค.
# ์ง์ ๊ณ์ฐํด๋ณด์
# lnn.ltc
๋ฒกํฐ๊ฐ์ TF * IDF * ์ ๊ทํ ๋ก ๊ณ์ฐํ๋ค.
$N$ ์ ์ ์ฒด ๋ฌธ์์ ๊ฐ์
$df( T )$ ๋ ํด๋น ๋จ์ด๊ฐ ๋์จ ๋ฌธ์์ ๊ฐ์
$tf( T , D )$ ๋ ๋ฌธ์D์์ ํด๋น ๋จ์ด์ ์ถํ ํ์ ์ด๋ฏ๋ก ์๋ ๊ฐ์ด ์ฝ๊ฒ ๊ณ์ฐํ ์ ์๋ค.
๋ฌธ์ ๋ฒกํฐ lnn์ ๊ณต์ $ ( 1+log(tf) ) * 1 * 1 $
์ง์ ๋ฒกํฐ ltn์ ๊ณต์ $ ( 1+log(tf) ) * log\frac{N}{df} * 1 $
# lnc.ltc
๋ฌธ์ ๋ฒกํฐ lnc์ ๊ณต์ $ ( 1+log(tf) ) * 1 * \frac{1}{\sqrt( W_1^2 + W_2^2 + \dots + W_M^2)} $
์ง์ ๋ฒกํฐ ltc์ ๊ณต์ $ ( 1+log(tf) ) * log\frac{N}{df} * \frac{1}{\sqrt( W_1^2 + W_2^2 + \dots + W_M^2)} $
์ฝ์ฌ์ธ ๋ฒ์น์์ $ \sqrt( W_1^2 + W_2^2 + \dots + W_M^2 ) $ ๋ถ๋ถ์
W(weight)์ ์์์ ๊ตฌํ TF*IDF์ ๊ฐ์ค์น๋ฅผ ์๋ฏธํ๋ฉฐ ์ด ์์ ํด๋น ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๊ตฌํ๊ธฐ ์ํ ์ฝ์ฌ์ธ ๊ณต์์ด๋ค.
๋ฒกํฐ์ ํฌ๊ธฐ๋ ๊ฐ ๋ฌธ์์์ ์ถํํ ๋จ์ด๋ค์ ๊ฐ์ค์น(W)๋ฅผ ์ ๊ณฑ ํ ํ ๋ํด์ ๋ฃจํธ๋ฅผ ์์์ค ๊ฐ์ด๋ค.
์ฝ์ฌ์ธ ๊ณต์์ด ๋ค์ด๊ฐ์ ์ด๋ ค์๋ณด์ด๋๋ฐ, ์ง์ ๊ณ์ฐํด๋ณด๋ฉด ์๊ฐ๋ณด๋ค ์ฝ๋ค.
1. ๋จผ์ ln(๋ฌธ์๋ฒกํฐ), lt(์ง์๋ฒกํฐ)๋ง์ผ๋ก ๋จผ์ ๊ฐ๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ตฌํ์.
2. ์ด๋ ๊ฒ ๊ตฌํ ๊ฐ์ค์น $\{D2(2,0,1) , Q(0,0,1)\}$๋ฅผ ์ด์ฉํ์ฌ ์ง์, ๋ฌธ์๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๊ตฌํ๋ค.
๋จ์ํ ๊ฐ๊ฐ์ ์์๋ค์ ์ ๊ณฑํ ํ ๋ํ ๋ค ๋ฃจํธ๋ฅผ ์์ฐ๋ฉด ๋๋ค.
3. ๊ตฌํ ๊ฐ์ ๋ค์ง์ด ๋ถ์๋ก ๋ง๋ค์ด์ฃผ๋ฉด ๋. log ๊ฐ์ ๊ตณ์ด ๊ณ์ฐํด์ฃผ์ง ์์๋ ๋๋ค. (๋จ $log(1) =0$)
'๐ฑโ๐ป์ ๊ณต ๊ณต๋ถ > ์ ๋ณด๊ฒ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
#6-2 ์ ๋ณด๊ฒ์ ์ฑ๋ฅํ๊ฐ (MAP, Pre@K, R-pre, NDCG) (0) | 2021.06.01 |
---|---|
#6-1 ์ ๋ณด๊ฒ์ ์ฑ๋ฅ ํ๊ฐ (P, R, F1, PRC) (0) | 2021.06.01 |
์ ๋ณด๊ฒ์ #4 ๊ฒ์๋ชจ๋ธ (Retrieval Models) (0) | 2021.04.15 |
์ ๋ณด๊ฒ์ #3 ์์ธ(Indexing) (0) | 2021.04.15 |
์ ๋ณด๊ฒ์ #2 TF-IDF ์์ธํ ์์๋ณด๊ธฐ (0) | 2021.04.13 |
๋ธ๋ก๊ทธ์ ์ ๋ณด
JiwonDev
JiwonDev