# ๋ณต์ต : ์ ๋ณด๊ฒ์ ์ฐ์ต๋ฌธ์
by JiwonDev# TF, IDF ๊ธฐ์ด
๋ค์ ์ ์ฒด๋ฌธ์์ง๋ต C={D1,D2}์ ๋ํด ์๋ ์ง๋ฌธ๋ค์ ๋ตํ์์ค. ๋ฌธ์๋ ์์ธ ์ฉ์ด๋ค์ ๋์ด๋ก ํํ๋์๋ค๊ณ ๊ฐ์ ํ๋ค. D1={ ๋ฏธ๊ตญ, ๋ฏธ๊ตญ ์ผ๋ณธ } , D2={ํ๊ตญ, ์ผ๋ณธ}
1. ์ ๋ฌธ์์งํฉ์ ๋ํด tf(์ผ๋ณธ,D1)์ ์ผ๋ง์ธ๊ฐ?
2. ์ ๋ฌธ์์งํฉ์ ๋ํด tf(๋ฏธ๊ตญ,D1)์ ์ผ๋ง์ธ๊ฐ?
3. ์ ๋ฌธ์์งํฉ์ ๋ํด df(ํ๊ตญ)์ ์ผ๋ง์ธ๊ฐ?
4. ์ ๋ฌธ์์งํฉ์ ๋ํด df(์ผ๋ณธ)์ ์ผ๋ง์ธ๊ฐ?
5. ์ ๋ฌธ์์งํฉ์ ๋ํด cf(์ผ๋ณธ)์ ์ผ๋ง์ธ๊ฐ?
6. ์ ๋ฌธ์์งํฉ์ ๋ํด ์์ธ ์ฉ์ด 'ํ๊ตญ'์ ๋ํ ํฌ์คํ ๋ฆฌ์คํธ๋ฅผ ์ ์ผ์์ค.
7. ์ ๋ฌธ์์งํฉ์ ๋ํด ์์ธ ์ฉ์ด '์ผ๋ณธ'์ ๋ํ ํฌ์คํ ๋ฆฌ์คํธ๋ฅผ ์ ์ผ์์ค.
8. ์ ๋ฌธ์์งํฉ์ ๋ํด ์ฉ์ t์ idf(t)๋ฅผ $\frac{N}{df(t)}$๋ก ๊ณ์ฐํ๋ค๊ณ ํ ๋, N์ ๊ฐ์?
9. ์ ๋ฌธ์์งํฉ์ ๋ํด ์ฉ์ t์ idf(t)๋ฅผ $\frac{N}{df(t)}$๋ก ๊ณ์ฐํ๋ค๊ณ ํ ๋, idf(ํ๊ตญ)์ ๊ฐ์?
ํ์ด
์ ์ฒด ๋ฌธ์์งํฉ C = {D1, D2}
D1={ ๋ฏธ๊ตญ, ๋ฏธ๊ตญ ์ผ๋ณธ } , D2={ํ๊ตญ, ์ผ๋ณธ}
$tf( t ,D_i)$๋ ํด๋น ๋ฌธ์$D_i$์์ ์ง์ ๋จ์ด(t)์ ์ถํ ๋น๋๋ฅผ ์๋ฏธํ๋ค.
1. tf(์ผ๋ณธ,D1) = 1 (D1์๋ '์ผ๋ณธ'์ด 1๋ฒ ์ฌ์ฉ๋จ.)
2. tf(๋ฏธ๊ตญ,D1) = 2 (D1์๋ '๋ฏธ๊ตญ'์ด 2๋ฒ ์ฌ์ฉ๋จ.)
$df( t )$๋ t๊ฐ ์ถํํ ๋ฌธ์์ ๊ฐ์๋ฅผ ์๋ฏธํ๋ค. ๋จ์ด t์ ๊ฐ์๊ฐ ์๋์ ์ ์ํ์.
3. df(ํ๊ตญ) = 1 (D1)
4. df(์ผ๋ณธ) = 2 (D1,D2)
$cf( t )$ ๋ collection-f๋ก ์ ์ฒด ๋ฌธ์ ์งํฉ์ ํ๋์ ๋ฌธ์๋ก ๋ณผ ๋์ df๋ฅผ ์๋ฏธํ๋ค. ์ฆ ๋จ์ด๊ฐ ๋์จ ํ์.
5. cf(์ผ๋ณธ) = 2 ('์ผ๋ณธ' ์ ์ฒด๋ฌธ์์งํฉ {D1, D2} ์์ ์ด 2๋ฒ ์ถํํ์๋ค.)
ํฌ์คํ ๋ฆฌ์คํธ๋ ๋ฌธ์๋ฅผ ์ธ๋ฑ์ฑํ ๊ฒ, ์ฆ ํน์ ๋จ์ด์ ๋ํด์ ๊ทธ ๋จ์ด๊ฐ ์ฌ์ฉ๋ ๋ฌธ์๋ค์ ๋ชฉ๋ก์ ์๋ฏธํ๋ค.
6. 'ํ๊ตญ' ํฌ์คํ ๋ฆฌ์คํธ = [D2]
7. '์ผ๋ณธ' ํฌ์คํ ๋ฆฌ์คํธ = [D1, D2]
idf ๋ df์ ๊ฐ์ ์ ์ฒด ๋ฌธ์ ๊ฐ์(N)์ผ๋ก ๋๋ ๊ฐ์ด๋ค. ๋ฌธ์์ ๊ธธ์ด๊ฐ ์๋์ ์ ์ํ์.
8. 2
9. $idf(t) = \frac{N}{df(t)}$ ์์์ ์ฌ์ฉํ๋ค ํ์ผ๋ฏ๋ก idf(ํ๊ตญ) = $\frac{2}{1}$ = 2
# ๊ฒ์๋ชจ๋ธ ์ฑ๋ฅํ๊ฐ, ์ ํ๋ฅ ๊ณผ ์ฌํ์จ, ํ๋ฅ ๋ชจ๋ธ
10. ๋ค์ ์ด์ ๋ค๋ก๋ถํฐ ์ถ์ถ๋๋ ์์ 2-gram์ ๊ฐ๊ฐ ๋ชจ๋ ์ ์ผ์์ค
{ ๋ถ์ฐ, ๋ํ๋ฏผ๊ตญ }
11. ์ ํฉ๋ฌธ์์ ์ด ๊ฐ์๊ฐ 10๊ฐ์ธ ์ง์ Q์ ๋ํด 8๊ฐ์ ๋ฌธ์๊ฐ ๊ฒ์๋์์ผ๋ฉฐ, ๊ฒ์๋ ๋ฌธ์ ์ค 8๊ฐ์ ์ ํฉ๋ฌธ์๊ฐ ํฌํจ๋์ด ์๋ค. ์ง์ Q์ ๋ํ ์ ํ๋ฅ ์ ์ผ๋ง์ธ๊ฐ?
12. ์ ํฉ๋ฌธ์์ ์ด ๊ฐ์๊ฐ 8๊ฐ์ธ ์ง์ Q์ ๋ํด 10๊ฐ์ ๋ฌธ์๊ฐ ๊ฒ์๋์์ผ๋ฉฐ, ๊ฒ์๋ ๋ฌธ์ ์ค 8๊ฐ์ ์ ํฉ๋ฌธ์๊ฐ ํฌํจ๋์ด ์๋ค. ์ง์ Q์ ๋ํ ์ฌํ์จ์ ์ผ๋ง์ธ๊ฐ?
13. ์ ํฉ๋ฌธ์์ ์ด ๊ฐ์๊ฐ 5๊ฐ์ธ ์ง์ Q์ ๋ํด 7๊ฐ์ ๋ฌธ์๊ฐ ๊ฒ์๋์์ผ๋ฉฐ, ๊ฒ์๋ ๋ฌธ์ ์ค 3๊ฐ์ ์ ํฉ๋ฌธ์๊ฐ ํฌํจ๋์ด ์๋ค. ์ง์ Q์ ๋ํ F1์ ์ผ๋ง์ธ๊ฐ?
14. ์ ํฉ๋ฌธ์์ ์ด ๊ฐ์๊ฐ 20๊ฐ์ธ ์ง์ Q์ ๋ํด 10๊ฐ์ ๋ฌธ์๊ฐ ๊ฒ์๋์์ผ๋ฉฐ, ๊ฒ์๋ ๋ฌธ์ ์ค 10๊ฐ์ ์ ํฉ๋ฌธ์๊ฐ ํฌํจ๋์ด ์๋ค. ์ง์ Q์ ๋ํ Pre@10์ ์ผ๋ง์ธ๊ฐ?
15. ์ ํฉ๋ฌธ์์ ์ด ๊ฐ์๊ฐ 5๊ฐ์ธ ์ง์ Q์ ๋ํด 5๊ฐ์ ๋ฌธ์๊ฐ ๊ฒ์๋์์ผ๋ฉฐ, ๊ฒ์๋ ๋ฌธ์ ์ค 5๊ฐ์ ์ ํฉ๋ฌธ์๊ฐ ํฌํจ๋์ด ์๋ค. ์ง์ Q์ ๋ํ R-precision์ ์ผ๋ง์ธ๊ฐ?
16. ๋ฌธ์์งํฉ์ ํฌ๊ธฐ๋ 100์ด๊ณ , $df(ํ๊ตญ)=5$, $df(๋ฏธ๊ตญ)=3$, $df(์ผ๋ณธ)=6$ ์ด๋ผ๊ณ ํ ๋, ์ง์ Q=[ํ๊ตญ,๋ฏธ๊ตญ], ๋ฌธ์ D=[ํ๊ตญ,์ผ๋ณธ]์ ๋ํด ์๋ ์์์ ๋ฐ๋ฅธ Q์ D์ ์ ์ฌ๋๋ฅผ ์ ์ผ์์ค.
ํ์ด
์์ N-Gram์ ๋ง ๊ทธ๋๋ก n๊ฐ์ ์์ ๋จ์๋ก ๋์ด ์ฝ๋ ๋ฐฉ์์ด๋ค.
์ฐธ๊ณ ๋ก ์๋ฏธ ์๋ ๋จ์ด ๋จ์๋ก ๋์ด์ฝ๋๊ฑด Unigram ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
10. ๋ถ์ฐ = { ๋ถ์ฐ } , ๋ํ๋ฏผ๊ตญ = {๋ํ, ํ๋ฏผ, ๋ฏผ๊ตญ}
์ ํ๋ฅ ์ ๊ฒ์๋ ๋ฌธ์ ์ค์ ์ ํฉ๋ฌธ์์ ๋น์จ, ์ฆ ์ผ๋ง๋ ์ ํํ๊ฒ ๊ฒ์๋์๋์ง์ ๋ํ ๋น์จ์ด๋ค.
11. ๋ฌธ์ 8๊ฐ ๊ฒ์, ๊ทธ ์ค 8๊ฐ๊ฐ ์ ํฉ๋ฌธ์์ด๋ฏ๋ก
$\frac{์ ํฉ๋ฌธ์ ์}{๊ฒ์๋ ๋ฌธ์ ์}$ = 8/8 = 1
์ฌํ์จ์ ์ ์ฒด ์ ํฉ๋ฌธ์์ค์์ ๋ช ๊ฐ์ ์ ํฉ๋ฌธ์๋ฅผ ์ฐพ์๋์ง์ ๋ํ ๋น์จ, ์ฆ ์ ์ฒด ์ ํฉ๋ฌธ์ ์ฌํ ๋น์จ์ด๋ค.
12. ๋ฌธ์ 10๊ฐ ๊ฒ์, 8๊ฐ๊ฐ ์ ํฉ๋ฌธ์์ธ๋ฐ ์ ์ฒด ์ ํฉ๋ฌธ์์ ๊ฐ์๋ 8๊ฐ์ด๋ฏ๋ก
$\frac{์ ํฉ๋ฌธ์ ์}{์ ์ฒด ์ ํฉ๋ฌธ์ ์}$ = 8/8 = 1
F1์ F ์งํ (์กฐํํ๊ท ) ๊ฐ์์ ์ ํ๋ฅ , ์ฌํ์จ์ ๊ฐ๊ฐ ๊ฐ์ค์น๋ฅผ 50%์ฉ ์ฃผ์์ ๋์ ๊ฐ์ด๋ค.
F ์งํ(=์กฐํํ๊ท )์ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ a, b๊ฐ ์์ ๋ F1 = $\frac{2* a * b}{ a + b}$ ์ด๋ค.
์กฐํํ๊ท ์ ๊ตฌํ๋ ๊ณต์์ด ๊ธฐ์ต์ด ์๋๋ค๋ฉด ๋ค์ ๋งํฌ๋ฅผ ์ฐธ์กฐํ์. https://jiwondev.tistory.com/51#head4
13. ๋ฌธ์ 7๊ฐ๋ฅผ ๊ฒ์๊ฒฐ๊ณผ๋ก ๋ฐ์๋๋ฐ 3๊ฐ๊ฐ ์ ํฉ๋ฌธ์์ด๋ค. (์ ์ฒด ์ ํฉ๋ฌธ์๋ 5๊ฐ์ด๋ค)
P = 3/7
R = 3/5
F1 = $ \frac{2 * P * R}{P + R}$ = $ \frac{2 * \frac{3}{7} * \frac{3}{5}}{\frac{3}{7} + \frac{3}{5}}$
Pre@10 ๋ 10์์ ์ง์ ์์์ ์ ํ๋ฅ ์ ์๋ฏธํ๋ค.
14. ๋ฌธ์ 10๊ฐ๋ฅผ ๊ฒ์๊ฒฐ๊ณผ๋ก ๋ฐ์๋๋ฐ ๊ทธ์ค 10๊ฐ๊ฐ ์ ํฉ๋ฌธ์์ด๋ค. (์ ์ฒด ์ ํฉ๋ฌธ์๋ 10๊ฐ์ด๋ค)
10์์ ์ง์ ์ด๋ ๊ฒ์ ์์๋๋ก ์ ๋ ฌํ์์ ๋ 10๊ฐ๋ฅผ ์ฌ์ฉํ์ ๋์ ์ ํ๋ฅ ์ ์๋ฏธํ๋ค.
์ฆ ( ${rank1 = D1, rank2 = D2, \dots rank10 = D10}$ ), 10๊ฐ ์ค 10๊ฐ๊ฐ ์ ํฉ๋ฌธ์ ์ด๋ฏ๋ก
10/10 = 1
R-precision์ pre@k ์ ๋น์ทํ๋ฐ, (์ด ์ ํฉ๋ฌธ์ ์ == ๋ฌธ์์งํฉ ๊ฐ์) ์ธ pre@k๋ฅผ ์ฌ์ฉํจ์ ์๋ฏธํ๋ค.
pre@k์ ๊ฐ์๋ณด์ฌ๋ pre@k ๋ ๊ฐ์ด ๊ณ ์ ๋์ด์์ง๋ง R-pre์ ์ง์๋ฌธ์ ์ด ์ ํฉ๋ฌธ์ ์์ ๋ฐ๋ผ k๊ฐ ๋ฌ๋ผ์ง์ ์ ์ํ์.
15. 5๊ฐ๊ฐ ๊ฒ์๋์๋๋ฐ, ๊ทธ ์ค 5๊ฐ๊ฐ ์ ํฉ๋ฌธ์์ด๋ค (์ ์ฒด ์ ํฉ๋ฌธ์๋ 5๊ฐ์ด๋ค)
ํด๋น ์ง์์์ ์ด ์ ํฉ๋ฌธ์์ ์๋ 5๊ฐ์ด๋ฏ๋ก pre@5๋ฅผ ์ฌ์ฉํ๋ฉด ๋๋ค.
5๊ฐ์ค 5๊ฐ๊ฐ ์ ํฉ๋ฌธ์์ด๋ฏ๋ก 5/5 = 1
์ฐธ๊ณ ๋ก ํด๋น ์์์ ํ๋ฅ ๋ชจ๋ธ(์ด์ง๋ฐ์ดํฐ ๋ชจํ, BIM ์ฌ์ฉ) ์์ ์ ํฉ/๋น์ ํฉ ์ถํ์ ๋ณด๊ฐ ์์ ๋ ์ฌ์ฉํ๋ ์์์ด๋ค.
16. ๋ฌธ์์งํฉ์ ํฌ๊ธฐ๊ฐ 100, $df(ํ๊ตญ)=5$, $df(๋ฏธ๊ตญ)=3$, $df(์ผ๋ณธ)=6$
Q=[ํ๊ตญ,๋ฏธ๊ตญ], ๋ฌธ์ D=[ํ๊ตญ,์ผ๋ณธ]
N์ ์ ์ฒด ๋ฌธ์์ ๊ฐ์, $n_i$ ๋ i๋ฒ์งธ ๋จ์ด๊ฐ ์ถํํ ๋ฌธ์์ ๊ฐ์๋ฅผ ์๋ฏธํ๋ค.
Q=[ํ๊ตญ,๋ฏธ๊ตญ] ์ด๋ฏ๋ก ํด๋น ๋ฌธ์D ์ ์ถํํ๋ ๋จ์ด๋ค์ ํ๋ฅ ์ ๊ตฌํ์ฌ ๋ํด์ฃผ๋ฉด Sim (Q,D)๊ฐ ๋๋ค.
'ํ๊ตญ' = $log \frac{N-n_ํ}{n_ํ}$ = $ log \frac{100-5}{5} $
'๋ฏธ๊ตญ' = $log \frac{N-n_๋ฏธ}{n_๋ฏธ}$ = $ log \frac{100-3}{3} $
ํ์ง๋ง, '๋ฏธ๊ตญ'์ ๋ฌธ์ D์ ์ถํํ์ง ์์ผ๋ฏ๋ก ํ๋ฅ ์ ํฌํจ๋์ง ์์์ ์ ์ํ์.
์ ๋ต = D[ํ๊ตญ,์ผ๋ณธ] = ํ๊ตญ $ log \frac{100-5}{5} $ + ์ผ๋ณธ 0 (์ง์๋ฌธ์ ๋์ค์ง ์์์ผ๋ฏ๋ก ์ ์ฌ๋๊ฐ์ 0์ด๋ค.)
= $ log \frac{100-5}{5} $
'๐ฑโ๐ป์ ๊ณต ๊ณต๋ถ > ์ ๋ณด๊ฒ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
# ์ ๋ณด๊ฒ์ ํ๊ณ (0) | 2021.06.05 |
---|---|
#10 ์ ํฉ์ฑ ํผ๋๋ฐฑ (Relevance Feedback) (0) | 2021.06.05 |
#9 ์ธ์ด ๋ชจ๋ธ(Language Model) (0) | 2021.06.04 |
#8. ํ๋ฅ ๋ชจ๋ธ(Probabilistic Model) (2) | 2021.06.01 |
#7. ๊ฒ์ ์ฑ๋ฅํ๊ฐ TestCase (0) | 2021.06.01 |
๋ธ๋ก๊ทธ์ ์ ๋ณด
JiwonDev
JiwonDev