์ ๋ณด๊ฒ์ #3 ์์ธ(Indexing)
by JiwonDev
์์ธ(Indexing) ์ด๋?
ํจ์จ์ ์ธ ๊ฒ์์ ์ํด [๋ฌธ์ ์งํฉ]์ ๋ฏธ๋ฆฌ ๊ฐ๊ณตํด๋๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.
์์ธ์ ๊ณผ์
1. ํ ์คํธ ์ถ์ถ - ๋ค์ํ ํ์์ ๊ฐ์ง ๋ฌธ์์์ ์์ํ ํ ์คํธ๋ฅผ ์ถ์ถํด๋ ๋๋ค.
2. ํ ํฐ ์ถ์ถ - text๋ฅผ ๊ฒ์ํ๊ธฐ ์ข๊ฒ ํ ํฐํ ์ํต๋๋ค.
3. ๋ถ์ฉ์ด(Stop-word) ์ ๊ฑฐ - ์๋ฏธ๋ฅผ ๊ฐ์ง์ง์์ ํ์์๋ ๊ด์ฉ์ด, ๋ถ์ฉ์ด๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
- ๋ถ์ฉ์ด๋ ๊ด์ฌ(a, the)์ฒ๋ผ ์๋ฏธ๋ฅผ ๊ฐ์ง์ง์๋ ์ฉ์ด๋ฅผ ๋งํฉ๋๋ค.
4. ์ ๊ทํ - ์๋ฏธ๋ฅผ ๊ฐ์ง ์ฉ์ด๋ฅผ ๊ธฐ๋ณธํ์ผ๋ก ๋ฐ๊พธ๊ณ , ์ด๊ฐ์ ์์ฑํฉ๋๋ค.
์์ด์์๋ Stemming(์คํ๋ฐ)์ด๋ผ๊ณ ํด์ ๋จ์ด์์ ํญ์ ๊ณ ์ ๋๋ ์ด๊ฐ์ ์ถ์ถํฉ๋๋ค.
5. ์ญํ์ผ์์ธ(Inverted Index)
๋ฌธ์์์ ๋จ์ด๋ฅผ ์ฐพ๋ ๊ฒ์ด ์๋๋ผ ์์ธ์ ํตํด ๋จ์ด์์ ํน์ ๋ฌธ์๋ฅผ ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ์ ๋งํฉ๋๋ค.
์ด๋ ค์ด ์ฉ์ด๊ฐ ์๋๋ผ, ์ฐ๋ฆฌ๊ฐ ํ์์ ์ฑ ์ฝ์๋๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
(๋๋์ ๋ฌธ์ ์งํฉ์์ 'ํน์ ํค์๋'๊ฐ ํฌํจ๋ ๋ฌธ์๋ฅผ ์์ธํ๋ ๋ฐฉ๋ฒ)
๋ฌธ์์ ํํ(Representation)
์ฐ๋ฆฌ๋ ์์ ์์ ์์ D1 { ์ฌ๊ณผ, ๋ฐ๋๋, ๋ฐ๋๋ } ์ ๊ฐ์ด ์ด๋ฏธ ์ ์ฒ๋ฆฌ๊ฐ ์๋ฃ๋ ๋ฌธ์๋ง ๋ดค์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ค์ ์ ๋ณด๊ฒ์์์ ๋ฌธ์๋ ์ด๋ค ์์ผ๋ก ์ ์ฅ, ์์ธํด์ผ ํ ๊น์?
1. a bag of word (๋จ์ด ๋ณด์๊ธฐ)
๊ทธ๋ฅ ํ ์คํธ์์ ๋จ์ด๋ง ์ถ์ถํ ๋ฐฉ๋ฒ์ ๋๋ค. ์ค๋ณต์ ๊ณ ๋ คํ์ง ์์ต๋๋ค.
2. a set of word (๋จ์ด์ ์งํฉ)
๋จ์ด๋ฅผ set์ ๋ฃ์ ํํ์ ๋๋ค. ์ค๋ณต์ ๊ณ ๋ คํด์ ๊ฐ์ ๋จ์ด๋ 1๊ฐ๋ง ์ ์ฅํฉ๋๋ค.
์ ๊ทธ๋ฆผ์ฒ๋ผ, ๋จ์ํ ์๊ฐํด๋ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๊ณ ๋ฌธ์์ ํํ์ ๋ฐ๋ผ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ฌ๋ผ์ง๋๋ค.
๋ง์ฝ ์์ด๋ผ๋ฉด ์คํ๋ฐ์ ๊ฑฐ์ณ ๋จ์ด์ ์ํ(์ด๊ฐ)์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๋ฉด
ํ๊ตญ์ด์ ๊ฒฝ์ฐ ๋ช ์ฌํํ๋ฅผ ์ถ์ถํ์ฌ ํํ์๋ถ์, ํ์ฌ์ข ๋ฅ ํ๊น , ๋ณตํฉ๋ช ์ฌ ๋ถํด๋ฑ์ ๊ณผ์ ์ด ํ์ํ ๊ฒ์ ๋๋ค.
์์ธ ๋จ์
์ฌ๋ด์ผ๋ก, ํ๊ตญ์ด๋ ์์ธ๋ก ๋ช ์ฌ์ถ์ถ์ด ์๋ ์์ -2gram์ ๋ง์ด ์ด์ฉํฉ๋๋ค. ๋ช ์ฌ์ถ์ถ์ ์ฌ์ฉํ ๋ ค๋ฉด ์ ์กฐ์ด๋ฅผ ๊ณ์ํด์ ์ถ๊ฐํ๋ฉฐ ์ต์ ํ ๋์ด์๋ ๋ํ ์ฌ์ ๋ฐ์ดํฐ(ํํ์ ๋ถ์๊ธฐ, ํ์ฌ ํ๊น ) ํ์ํ๊ณ , ์์ -gram์ด ์๊ฐ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ต๋๋ค.
์์ฝ
์ ๊ณผ์ ์ ์๋ ๊ทธ๋ฆผ์ ํ๋๋ถ๋ถ์ ํด๋น๋ฉ๋๋ค.
ํด์ฆ
1. ๋ค์ ์ด์ ๋ก๋ถํฐ ์ถ์ถ๋ ์ ์๋ ๋ชจ๋ ์์ 2-gram์ ์ ์ผ์์ค.
ํ๊ตญ์์๋
ํ๊ตญ, ๊ตญ์, ์์, ์๋
2. ๋ค์ ์ด์ ๋ก๋ถํฐ ์ถ์ถ๋ ์ ์๋ ๋ชจ๋ ์์ 3-gram์ ์ ์ผ์์ค.
์ฝ๋ก๋๋ก๋ถํฐ
์ฝ๋ก๋, ๋ก๋๋ก, ๋๋ก๋ถ, ๋ก๋ถํฐ
๋ค์์ ์ง์ Q์ ๋ฌธ์ D๋ฅผ ๋ณด์ธ ๊ฒ์ด๋ค.
์์ 2-gram ์์ธ๋จ์๋ฅผ ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํ๊ณ , ์๋ ๋ฌผ์์ ๋ตํ์์ค.
- ์ ์ฌ๋ sim(Q,D)๋ "์ง์์ฉ์ด q์ ๋ฌธ์ D์์์ ๊ฐ์ค์น w(q,D)”(๋ค)์ ํฉ์ผ๋ก ๊ณ์ฐํ์์ค.
- ์๋ฅผ ๋ค์ด, Q=[q1,q2]์ธ ๊ฒฝ์ฐ sim(Q,D)=w(q1,D)+w(q2,D)๋ก ๊ณ์ฐ๋จ.
Q="๋ถ์ฐ๊ด๊ด"
D="๋ถ์ฐ์๋ ์ธ๊ตญ์ธ ๊ด๊ด๊ฐ์ ์ํด ๋ถ์ฐ ํ๋ณด์ ๋์ฐ๋ค"
3- A. ์ง์ ์ฉ์ด์ ๋ฌธ์ ๋ด ๊ฐ์ค์น ๊ณ์ฐ ์ TF๋ง ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํ๊ณ , ์ง์๋ฌธ์์ ์ฌ๋ sim(Q,D)์ ์์์ ์ ์ผ์์ค.
Q์ 2-gram์์ธ = ( ๋ถ์ฐ, ์ฐ๊ด, ๊ด๊ด )
sim(Q,D) = w(๋ถ์ฐ,D) + w(์ฐ๊ด,D) + w(๊ด๊ด,D)
์ฌ๊ธฐ์์ ๊ฐ์ค์น(Weight) ๊ณ์ฐ ์ tf๋ง ์ฌ์ฉํ๋ผ๊ณ ์กฐ๊ฑด์ ์ฃผ์์ผ๋ฏ๋ก
sim(Q,D) = tf(๋ถ์ฐ,D) + w(์ฐ๊ด,D) + w(๊ด๊ด,D) = 2 + 0 + 1 = 3
3- B. ์ง์ ์ฉ์ด์ ๋ฌธ์ ๋ด ๊ฐ์ค์น ๊ณ์ฐ ์ TF์ ๋ฌธ์๊ธธ์ด๋ง ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํ๊ณ , ์ง์๋ฌธ์์ ์ฌ๋ sim(Q,D)์ ์์์ ์ ์ผ์์ค. ๋ฌธ์๊ธธ์ด๋ ๋ฌธ์ ๋ด ์์ธ์ฉ์ด(๋ค)์ ์ด ๊ฐ์๋ก ๊ณ์ฐํ์์ค.
3-A ์ ๋์ผํ๋ฐ, ๊ฐ์ค์น ๊ณ์ฐ ์ TF + ๋ฌธ์๊ธธ์ด๋ฅผ ์ฌ์ฉํ๋ผ๊ณ ํ์ผ๋ฏ๋ก
4. ์์ 3-gram ์์ธ๋จ์๋ฅผ ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํ๊ณ ์ 3๋ฒ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์์ค.
A.
B.
A.
sim(Q,D) = w(๋ถ์ฐ๊ด,D)+w(์ฐ๊ด๊ด,D)
sim(Q,D) = tf(๋ถ์ฐ๊ด,D)+tf(์ฐ๊ด๊ด,D)
= 0+0=0
B.
sim(Q,D) = 0/len(D) + 0/len(D)
sim(Q,D) = 0/9 + 0/9
= 0
๊ทธ๋ ๋ค, ์ด ์์ ์์๋ ์ ์ ์๋ฏ์ด ํ๊ธ์์ 3-gram ์์ธ์ ๋งค์ฐ ์ฑ๋ฅ์ด ์ข์ง์๋ค.
5. ๋ค์์ ์ง์ Q์ ์ ์ฒด๋ฌธ์์งํฉ C={D0,D1,D2,D3}์ ๋ณด์ธ ๊ฒ์ด๋ฉฐ ๊ฐ ๋ฌธ์๋ ์์ธ์ฉ์ด๋ค์ ๋์ด์ด ๋ผ๊ณ ๊ฐ์ ํ ๋ ์๋ ๋ฌผ์์ ๋ตํ์์ค.
Q=[๋ถ์ฐ,์ก์ ,์ํ,์์ฝ]
D0=[๋ถ์ฐ], D1=[๋ถ์ฐ,์ก์ ,์ํ], D2=[๋ถ์ฐ,์ํ,์ํ], D3=[๋๊ตฌ]
5-A. ์ ์ ์ฒด๋ฌธ์์งํฉ์ ์์ธ์ด ์๋ฃ๋์๋ค๊ณ ๊ฐ์ ํ ๋, ๊ฐ ์ฉ์ด์ ๋ฌธ์ ํฌ์คํ ์ ํ์ํ์์ค.
์ด ๋ฌธ์ ์ ์ ๋ต์ ๊ตฌํ๋ ๊ณผ์ == ์ญํ์ผ์์ธ์ ๊ตฌํ๋ ๊ณผ์
๋ถ์ฐ: [D0, D1, D2]
์ก์ : [D1]
์ํ: [D1, D2]
๋๊ตฌ: [D3]
5-B. ์ง์๋ฌธ์์ ์ฌ๋ sim(Q,D)๋ "์ง์์ฉ์ด q์ ๋ฌธ์ D์์์ ๊ฐ์ค์น w(q,D)"(๋ค)์ ํฉ์ผ๋ก ๊ณ์ฐ๋๋ฉฐ w(q,D) ๊ณ์ฐ ์ TF๋ง ์ฌ์ฉํ๋ค ์ง์ Q์ ๊ฐ ๋ฌธ์์ ์ ์ฌ๋ ์์์ ์ ์ผ์์ค.
- ์๋ฅผ ๋ค์ด, Q=[q1,q2]์ธ ๊ฒฝ์ฐ sim(Q,D)=w(q1,D)+w(q2,D)๋ก ๊ณ์ฐ๋จ.
๊ฐ ๋ฌธ์์ ๊ฐ์ค์น ์ ์(์ ์ฌ๋)๋ฅผ ๋งค๊ฒจ๋ณด์.
๋จ, ๊ฐ์ค์น ์ ์๋ TF๋ง ์ฌ์ฉํ๋ค๊ณ ์กฐ๊ฑด์ด ์๋ค.
w(๋ถ์ฐ,D0) => TF(๋ถ์ฐ,D0) => 'D0'์์ '๋ถ์ฐ'์ด๋ผ๋ Term์ด ๋์จ ํ์
sim(Q, D0)= w(๋ถ์ฐ,D0)+w(์ก์ ,D0)+w(์ํ,D0)+w(์์ฝ,D0)
sim(Q, D0)= 1+0+0+0 = 1
์ด๋ฐ์์ผ๋ก Q์ ๋ํ ๊ฐ๊ฐ ๋ฌธ์์ ๊ฐ์ค์น ์ ์๋ฅผ ๋ค ๊ตฌํ๋ฉด ๋๋ค.
sim(Q, D1)=1+1+1+0 = 3
sim(Q, D2)=1+0+2+0 = 3
sim(Q, D3)=0+0+0+0 = 0
์ฆ, ์ฌ๊ธฐ์๋ Q[๋ถ์ฐ,์ก์ ,์ํ,์์ฝ]์ ๊ฒ์ํ๋ฉด D1๊ณผ D2๊ฐ ์ ์ผ ์ ํฉํ ๋ฌธ์๋ผ๊ณ ํ๋จ๋๋ค.
'๐ฑโ๐ป์ ๊ณต ๊ณต๋ถ > ์ ๋ณด๊ฒ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
#6-1 ์ ๋ณด๊ฒ์ ์ฑ๋ฅ ํ๊ฐ (P, R, F1, PRC) (0) | 2021.06.01 |
---|---|
#5 ๋ฒกํฐ ๋ชจ๋ธ SMART ํ๊ธฐ๋ฒ (0) | 2021.05.31 |
์ ๋ณด๊ฒ์ #4 ๊ฒ์๋ชจ๋ธ (Retrieval Models) (0) | 2021.04.15 |
์ ๋ณด๊ฒ์ #2 TF-IDF ์์ธํ ์์๋ณด๊ธฐ (0) | 2021.04.13 |
์ ๋ณด๊ฒ์ #1 ๊ฐ์ (0) | 2021.03.16 |
๋ธ๋ก๊ทธ์ ์ ๋ณด
JiwonDev
JiwonDev