#10 ์ ํฉ์ฑ ํผ๋๋ฐฑ (Relevance Feedback)
by JiwonDev์์์
๊ฒ์๋ชจ๋ธ์ ๊ธฐ๋ณธ์์(TF, IDF, Document Length, N)
๋ถ๋ฆฐ ๋ชจ๋ธ (๋ฌธ์ ์ ์ ํด๊ฒฐํ ํ์ฅ ๋ถ๋ฆฌ์ธ ๋ชจ๋ธ์ ๋ฐฐ์ฐ์ง ์์์)
๋ฒกํฐ ๊ณต๊ฐ๋ชจ๋ธ(cos ์ ์ฌ๋, TF-IDF ๋ฐ์ดํฐ๋ชจ๋ธ)
ํ๋ฅ ๋ชจ๋ธ(BM25)
์ธ์ด ๋ชจ๋ธ(JM, dirichlet)
์ ๋ณด๊ฒ์ ์ฑ๋ฅํ๊ฐ(P, R, F1, Pre, R-pre NDCG)
์ด๋ ๊ฒ ์ ๋ณด๊ฒ์์ ๊ธฐ๋ณธ์์๋ค์ ๊ฐ๋ตํ ํ์ฌ ๋ฐฐ์ ์ต๋๋ค.
์ด์ ์ด๋ ๊ฒ ๋ง๋ ์ ๋ณด๊ฒ์๋ชจ๋ธ (IR Model)์ ์ฑ๋ฅ์ ํฅ์์ํค๋ '์ ํฉ์ฑ ํผ๋๋ฐฑ'์ ๋ํด ๋ฐฐ์๋ด ์๋ค.
# ์ฌ์ฉ์ ์ง์์ ๋ถ์์ , ๋ถ์ถฉ๋ถ์ฑ
๊ฒ์๋ชจ๋ธ์์ ์ฌ์ฉ์๋ SQL์ ์ด์ฉํ์ฌ ์ง๋ฌธํ๋๊ฒ ์๋๋ผ, ์์ฐ์ด๋ก ์ง์๋ฌธ์ ์์ฑํฉ๋๋ค. ์ฆ, ๊ฐ์ ์ง๋ฌธ ๋ด์ฉ์ด๋ผ๋ ์ฌ๋๋ง๋ค ์ง์๋ฌธ์ ๊ตฌ์ฑ์ด ๋ค๋ฆ ๋๋ค. ์ฆ ์ฌ์ฉ์ ์ง์์ ๋ถ์์ , ๋ถ์ถฉ๋ถ์ฑ ๋๋ฌธ์ ๊ฒ์์ฑ๋ฅ์ด ์ ํ ๋ ์ ์์ต๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๊ฐ ์ ํฉ์ฑ ํผ๋๋ฐฑ์ ์ด์ฉํ์ฌ ํด๊ฒฐํฉ๋๋ค.
# Relevance Feedback(์ ํฉ์ฑ ํผ๋๋ฐฑ)
์ง์์ ๋ํ ์ ํฉ์ฑ์ ์๋ฏธํฉ๋๋ค.
๊ฒ์๋ชจ๋ธ์์ '์ง์ ๋ฌธ์ ๋ํ ์ ๋ณด'๋ง ์ฌ์ฉํ์ฌ ๋ฌธ์์ ์ ์ฌ๋ ์์๋ฅผ ๋งค๊ฒผ์ต๋๋ค.
์ ํฉ์ฑ ํผ๋๋ฐฑ์ ์ด์ ์ถ๊ฐ๋ก '์ด๋ฏธ ๊ฐ์ง๊ณ ์๋ ์ ํฉ๋ฌธ์์ ์ ๋ณด'๋ฅผ ์ด์ฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค.
์ฌ์ฉ์ ์ ํฉ์ฑ ํผ๋๋ฐฑ : ์ฌ๋์ด ์ง์ ์ ํฉ์ฑ์ ๊ฒ์ฌํ๊ณ ํผ๋๋ฐฑํฉ๋๋ค.
์์ฌ (pseudo) ์ ํฉ์ฑ ํผ๋๋ฐฑ : 1์ฐจ ๊ฒ์์์ ์์ ๊ฒ์๋ ์์k๊ฐ์ ๋ฌธ์๋ฅผ ์ ํฉํ๋ค๊ณ ๊ฐ์ ํ์ฌ ํผ๋๋ฐฑํฉ๋๋ค.
(๋ถ์ ํฉ ๋ฌธ์๋ ๋ฐ๋๋ก ํ์ 10๊ฐ)
# ์ ํฉ์ฑ ํผ๋๋ฐฑ์ ์ฃผ์ ๋จ๊ณ
# ์ ํฉ์ฑ ํผ๋๋ฐฑ์ ํต์ฌ
๊ฐ ๋ฌธ์๊ฐ ๋ฒกํฐ ๊ทธ๋ํ๊ฐ์ ๊ฐ์ง๋ค๊ณ ์๊ฐํ๋ฉด, [์ ํฉ๋ฌธ์, ๋ถ์ ํฉ๋ฌธ์]์ ๋ณด๋ฅผ ์ด์ฉํด ์ง์๋ฌธ์ ์ํ๋ ์์น๋ก ๋ฐ๊พธ๋๊ฒ ์ ํฉ์ฑ ํผ๋๋ฐฑ์ ํต์ฌ์ ๋๋ค.
์ด๋ ๊ฐ ๋ฒกํฐ ๊ทธ๋ํ ๊ฐ์ ํฉ๊ณผ ์ฐจ๋ฅผ ์ด์ฉํ์ฌ ์ง์๋ฌธ์ ์์ ํ ์ ์์ต๋๋ค.
์ ํฉ๋ฌธ์ ๋๋ ๋ถ์ ํฉ๋ฌธ์(D)๋ฅผ ์ด์ฉํด ์ง์๋ฌธ(Q)์ ๊ฐ์ ๋ฒกํฐํฉ, ๋ฒกํฐ์ฐจ๋ก ์ํ๋ ์์น๋ก ๋ฐ๊ฟ๋๋ค.
# ๋ก์น์ค ์๊ณ ๋ฆฌ์ฆ
์ด๋ฅผ ์ด์ฉํ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ด '๋ก์น์ค ์๊ณ ๋ฆฌ์ฆ' ์ ๋๋ค.
์ค์ ๊ฒ์๋ชจ๋ธ์์๋ '์ ํฉ๋ฌธ์'๊ฐ ํ๊ฐ๊ฐ ์๋ ์ฌ๋ฌ๊ฐ๋ผ์
๊ฐ ๋ฒกํฐ๋ค์ ์ค์ฌ์ ์ ๊ณ์ฐํ์ฌ ๋ฒกํฐํฉ(์ ํฉ๋ฌธ์), ๋ฒกํฐ์ฐจ(๋ถ์ ํฉ๋ฌธ์)๋ฅผ ์ด์ฉํ์ฌ ์ง์๋ฌธ์ ๋ณ๊ฒฝํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๋ฒกํฐ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฐ $(a_1,b_1,c_1)$ $(a_2,b_2,c_2)$๊ฐ ์์ผ๋ฉด ๊ฐ ์ ๋ค์ ๋ํ ํ ๊ฐ์๋ก ๋๋๋ฉด ๊ทธ๊ฒ ์ค์ฌ์ ์ ๋๋ค.
๋ฒกํฐ์ ์ค์ฌ์ ์ด๋ป๊ฒ ๊ตฌํ๋์?
์ฝ์ต๋๋ค. ๊ทธ๋ฅ ๋ํด์ ํ๊ท ๋ด๋ฉด ๊ทธ๊ฒ ์ค์ฌ ๋ฒกํฐ์ ๋๋ค.
1์ฐจ์ ์ขํํ๋ฉด์์ ์ค์ฌ๊ฐ์, ๊ฐ ์ ๋ค์ ๋ํด์ ๊ฐ์๋ก ๋๋ ์ฃผ๋ฉด ๋ฉ๋๋ค.
๋ฒกํฐ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฐ $(a_1,b_1,c_1)$ $(a_2,b_2,c_2)$๊ฐ ์์ผ๋ฉด ๊ฐ ์ ๋ค์ ๋ํ ํ ๊ฐ์๋ก ๋๋๋ฉด ๊ทธ๊ฒ ์ค์ฌ์ ์ ๋๋ค.( $\frac{a_1+a_2}{2}$ , $\frac{b_1+b_2}{2}$ , $\frac{c_1+c_2}{2}$ )
์ฐธ๊ณ ๋ก ์ ํฉ๋ฌธ์, ๋ถ์ ํฉ๋ฌธ์๋ ์ฌ์ฉ์๊ฐ ์ง์ ์ฐพ์์ ๋ฐ์ดํฐ๋ก ๋ง๋ค๊ณ , ์์ฌ (pseudo) ์ ํฉ์ฑ ํผ๋๋ฐฑ์ ๊ฒฝ์ฐ ์์ k๊ฐ๋ฅผ ์ ํฉ, ํ์ k๊ฐ๋ฅผ ๋ถ์ ํฉ์ผ๋ก ๋ณด๊ณ ๊ณ์ฐํฉ๋๋ค.
๋ค๋ง ์ค์ ์์คํ ์์๋ ๋๋ถ๋ถ '๊ธ์ ํผ๋๋ฐฑ'๋ง ์ฌ์ฉํฉ๋๋ค.
์ ๊ธ์ ํผ๋๋ฐฑ(์ ํฉ๋ฌธ์)๋ง ์ฌ์ฉํ ๊น์?
๊ธ์ ํผ๋๋ฐฑ์ ์ ํํ์ง ์์๋ ๋น์ทํ ์ง์๋ฌธ ๋ฒกํฐ๋ฅผ ํ ๊ณณ์ผ๋ก ๋ชจ์์ฃผ์ง๋ง
๋ถ์ ํผ๋๋ฐฑ์ ์ ํํ์ง ์์ผ๋ฉด ๊ทธ๋ฅ ์ง์๋ฌธ ๋ฒกํฐ๋ฅผ ํฉํธ๋ ค ๋์ ๋ฟ์ ๋๋ค.
Q { ์ฌ์ } ์์ ๊ธ์ ํผ๋๋ฐฑ์ '๋ฌด์์ด ์ฌ์๋ฅผ ๋ํ๋ด๋์ง'๋ฅผ ์๋ฏธํ๊ณ
Q { ์ฌ์ } ์์ ๋ถ์ ํผ๋๋ฐฑ์ '์ฌ์๊ฐ ์๋ ๋ชจ๋ ๊ฒ'์ ์๋ฏธํฉ๋๋ค.
๋ถ์ ํผ๋๋ฐฑ์์ ๋์์ด ๋ ๋ ค๋ฉด [์ง์๋ฌธ์ด ์๋ ๋ชจ๋ ํผ๋๋ฐฑ]์ ๊ณจ๊ณ ๋ฃจ ์ฃผ์ด์ฌํฉ๋๋ค. ์ด๋ ์ฌ์ค์ ๋ง์ด ๋์ง ์์ผ๋ฏ๋ก
๋๋ถ๋ถ์ ์์คํ ์์ ์ฌ์ฉํ์ง ์์ต๋๋ค.
๋ฌผ๋ก ์ ๋์ ์ธ ์ ๋ต์ ์์ต๋๋ค. ์ ๋ณด๊ฒ์ ์์คํ ์์ ๋ถ์ ํผ๋๋ฐฑ์ ์ฌ์ฉํ๋ ๋ ๋์ ๋ฐฉ๋ฒ์ด ์๋ค๋ฉด ๋ฐ๋์๋ ์๋๊ฑฐ์ฃ .
#์์
๋ก์น์ค ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ง์๋ฌธ์ ์์ ํ๋ฉด ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค.
[๊ธฐ์กด ์ง์], [์ ํฉ๋ฌธ์์ ์ค์ฌ๋ฒกํฐํฉ], [๋ถ์ ํฉ๋ฌธ์์ ์ค์ฌ๋ฒกํฐ์ฐจ]์ ๊ฐ๊ฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ ๊ณ์ฐํ๋ฉด ๋ฉ๋๋ค.
์ฌ๋ฐ๋ ๊ฑด ๋จ์ด์ ๊ฐ์ค์น๊ฐ 0์์ 1๋ก ๋ณํ๊ธฐ๋ ํ๋ค๋ ์ ์ ๋๋ค. (ex ์ง์๋ฌธ : ํ๊ตญ์๋, '์์ธ' 0->1๋ก ๋ณ๊ฒฝ)
์ฐธ๊ณ ๋ก ์ด๋ฐ ์์ผ๋ก ์ง์๊ฐ ๋์ด๋๋ ํ์์ ์ ํฉ์ฑ ํผ๋๋ฐฑ์ Query Extension(์ง์ ํ์ฅ)์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
๋ํ ์ง์ ์ฉ์ด์ ๊ฐ์ค์น๋ฅผ ๋ณ๊ฒฝํ๋ ๊ฒ(ex 1->2.4)์ ์ง์์ฉ์ด์ ์ฐจ๋ณํ๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํฉ๋๋ค.
ํ์ค๋ก ์์ฝํ๋ฉด '์ง์ํ์ฅ'๊ณผ '์ง์์ฉ์ด์ ์ฐจ๋ณํ'๋ฅผ ํตํด ๊ฒ์ ์์คํ ์ด ํฅ์๋๋ค. ๋ผ๊ณ ํฉ๋๋ค.
# Ide_Regular ์๊ณ ๋ฆฌ์ฆ
๊ฒ์์ฑ๋ฅ์ ๋์ผ ์ ์๋ ์์์ด๋ฉด, ๊ตณ์ด ๋ฒกํฐ ํ๊ท ๊ฐ์ด ์๋์ฌ๋ ๊ด์ฐฎ์ต๋๋ค.
๋ํ์ ์ผ๋ก Ide_Regular ์๊ณ ๋ฆฌ์ฆ์ ํ๊ท ์ด ์๋ ๊ฐ ๋ฒกํฐ์ ํฉ์ ์ด์ฉํ์ฌ ์ง์๋ฌธ์ ํผ๋๋ฐฑํฉ๋๋ค.
# Ide_Dec_Hi ์๊ณ ๋ฆฌ์ฆ
Ide_Regular์์ ์ ํฉ์ ๋ฒกํฐ์ ํฉ์, ๋ถ์ ํฉ ๋ฌธ์๋ ์ต์์ 1๊ฐ๋ง ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
# ํด์ฆ
ํ์ด
์ค์ฌ๋ฒกํฐ๋ฅผ ์์ด๋ก Centroid vector๋ผ๊ณ ํ๋ค.
๋จ์ด๋ฅผ ์ถํ์ฌ๋ถ(๋ถ๋ฆฐ)๊ฐ์ด ์๋ TF๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋ผ๊ณ ํ์ผ๋ฏ๋ก
๋จ์ด a | ๋จ์ด b | ๋จ์ด c | ๋จ์ด d | |
D1 | 2 | 3 | 1 | 0 |
D2 | 0 | 2 | 3 | 1 |
C(์ค์ฌ) | 2+0 /2๊ฐ = 1 | 3+2 /2๊ฐ = 5/2 | 1+3 /2๊ฐ = 2 | 0+1 /2๊ฐ = 1/2 |
์ ๋ต $( a: 1, b: \frac{5}{2}, c: 2, d: \frac{1}/{2} )$
ํ์ด
D_r ์ ์ ํฉ๋ฌธ์ ์งํฉ, D_nr์ ๋ถ์ ํฉ ๋ฌธ์ ์งํฉ์ ์๋ฏธํ๋ค
$D_r = {D_1, D_2}$ , $D_n={D_4,D_5}$ ๋ผ๊ณ ํ์ผ๋ฏ๋ก ๊ฐ๊ฐ์ ์ค์ฌ๋ฒกํฐ๋ฅผ ๊ตฌํจ๋ ๋๋ค.
a | b | c | d | |
D1 | 2 | 3 | 1 | 0 |
D2 | 0 | 2 | 3 | 1 |
C_r {D1,D2 ์ค์ฌ} | 1 | 5/2 | 2 | 1/2 |
D4 | 1 | 0 | 0 | 2 |
D5 | 0 | 0 | 1 | 1 |
C_nr {D4,D5 ์ค์ฌ} | 1/2 | 0 | 1/2 | 3/2 |
์ง์๋ฌธ q์ ์ ํฉ๋ฌธ์(C_r)๋ฅผ ๋ํ๊ณ ๋ถ์ ํฉ๋ฌธ์(C_nr)์ ๋นผ๋ฉด ๋๋ค.
์ฌ๊ธฐ์์ ์ง์๋ฌธ ๊ฐ์ค์น($\alpha = 1$) ์ ํฉ๋ฌธ์ ๊ฐ์ค์น($\beta=0.6$) ๋ถ์ ํฉ๋ฌธ์๊ฐ์ค์น($\gamma=0.4$)๋ผ๊ณ ํ์ผ๋ฏ๋ก
a | b | c | d | |
$\alpha$ *๊ธฐ์กด ์ง์ q0 | 1* 1 | 1* 1 | 1* 0 | 1* 0 |
+ $\beta$ * C_r | 0.6* 1 | 0.6* 5/2 | 0.6* 2 | 0.6* 1/2 |
- $\gamma$ * C_nr | 0.4* 1/2 | 0.4* 0 | 0.4* 1/2 | 0.4* 3/2 |
์๋ก์ด ์ง์๋ฌธ q | 1+ 6/10 - (4/10 +1/2) | ... | ... | ... |
๊ณ์ฐํ๋ฉด ๋๋ค. ๋ถ์ ํฉ ๋ฌธ์์ ๊ฒฝ์ฐ ๋บ์ (๊ณ์ฐ ๊ฐ์ ์์๋ก)์ ํด์ผํจ์ ์ ์ํ์.
์ ๋ต์ ์๋์ ๊ฐ๋ค.
์ต์ด์ง์ $q_0$ = { 1, 1, 0, 0 }
์์ ์ง์ $q_m$= {1.4, 2.5, 1, 0}
์ด๋ฐ ์์ผ๋ก ์ง์๊ฐ ๋์ด๋จ์ Query Extension(์ง์ ํ์ฅ)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
'๐ฑโ๐ป์ ๊ณต ๊ณต๋ถ > ์ ๋ณด๊ฒ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
# ์ ๋ณด๊ฒ์ ํ๊ณ (0) | 2021.06.05 |
---|---|
# ๋ณต์ต : ์ ๋ณด๊ฒ์ ์ฐ์ต๋ฌธ์ (0) | 2021.06.04 |
#9 ์ธ์ด ๋ชจ๋ธ(Language Model) (0) | 2021.06.04 |
#8. ํ๋ฅ ๋ชจ๋ธ(Probabilistic Model) (2) | 2021.06.01 |
#7. ๊ฒ์ ์ฑ๋ฅํ๊ฐ TestCase (0) | 2021.06.01 |
๋ธ๋ก๊ทธ์ ์ ๋ณด
JiwonDev
JiwonDev