JiwonDev

#8. ํ™•๋ฅ  ๋ชจ๋ธ(Probabilistic Model)

by JiwonDev

# ์—ฌ๋‹ด

์•ž์—์„œ๋Š” ๋ฒกํ„ฐ ๋ชจ๋ธ์„ ์ฃผ๋กœ ์„ค๋ช…ํ–ˆ์—ˆ๋‹ค. ์‚ฌ์‹ค ๋‹จ์ˆœํžˆ ์ƒ๊ฐํ•ด๋ณด๋ฉด TF-IDF ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฒกํ„ฐ ๋ชจ๋ธ์ด ํ›จ์”ฌ ์ข‹์„ ๊ฒƒ ๊ฐ™์ง€๋งŒ ํ™•๋ฅ  ๋ชจ๋ธ๋„ ๊ต‰์žฅํžˆ ์„ฑ๋Šฅ์ด ์ข‹์€ BM25 (Best Match 25, Okapi)๋ผ๋Š” ๋ชจ๋ธ์ด ์žˆ๋‹ค. ์‹ค์ œ IR ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•˜๋Š” ElasticSearch์—๋„ 5.0๋ถ€ํ„ฐ BM25 ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ณธ์œผ๋กœ ์ฑ„ํƒํ•ด์„œ ์‚ฌ์šฉ์ค‘. ์žฌ๋ฐŒ๋Š” ๊ฑด ๋ฒกํ„ฐ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ ์ˆ˜ํ•™์ ์œผ๋กœ ์ „๋ถ€ ์ฆ๋ช…ํ•˜๊ณ  ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ธฐ ์‹œ์ž‘ํ•œ๊ฒŒ ์•„๋‹ˆ๋ผ ๋‹ค๋ฅธ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์„ฑ๋Šฅ ์‹คํ—˜ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ

'์–ด ์ด์œ ๋Š” ๋ชจ๋ฅด๊ฒ ์ง€๋งŒ ์„ฑ๋Šฅ ์—„์ฒญ ์ข‹์€๋ฐ? (=๋ธ”๋ž™๋ฐ•์Šค)' ํ•˜๊ณ  ์“ฐ๋ฉด์„œ ์กฐ๊ธˆ์”ฉ ์„ฑ๋Šฅ์„ ์ฆ๋ช…ํ•˜๊ณ  ์žˆ๋Š” ๋ชจ๋ธ.

 

์ž, ์—ฌ๋‹ด์€ ์—ฌ๊ธฐ๊นŒ์ง€ ํ•˜๊ณ  ์ด์ œ BM25์ด ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค์–ด์กŒ๋Š”์ง€ ์•Œ๊ธฐ ์œ„ํ•ด์„œ ํ™•๋ฅ  ๋ชจ๋ธ์„ ๊ณต๋ถ€ํ•ด๋ณด์ž.

* ์•„๋ž˜ ์ˆ˜์‹์—์„œ BM25 (์•ž๋ถ€๋ถ„) * (๋’ท๋ถ€๋ถ„) ์—์„œ ์•ž๋ถ€๋ถ„์— ํ™•๋ฅ  ๊ฒ€์ƒ‰๋ชจ๋ธ์˜ ๊ฐœ๋…(IDF) ์š”์†Œ๊ฐ€ ๋“ค์–ด๊ฐ€์žˆ๊ณ , ๋’ค์— TF์š”์†Œ๋Š” ์„ฑ๋Šฅ์ด ์ข‹์•„์„œ ๋„ฃ์€ ๊ฑฐ๊ธด ํ•œ๋ฐ, ์™œ ์ด ์ˆ˜์‹์ด ์„ฑ๋ฆฝํ•˜๋Š”์ง€ ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…๋˜์ง€๋Š” ์•Š์•˜๋‹ค. ์•„๋ฌดํŠผ ์„ฑ๋Šฅ์€ ์ข‹๋‹ค.

์ˆ˜์‹์ด ๋ณต์žกํ•˜์ง€๋งŒ, ์‹ ๊ธฐํ•˜๊ฒŒ๋„ ๋™์ž‘ํ•˜๋Š” ๊ณผ์ •์„ ๋ณด๋ฉด tf, log(tf)์™€ ๋น„์Šทํ•˜๊ฒŒ ๋™์ž‘ํ•œ๋‹ค.


# ์„ค๋ช…ํ•˜๊ธฐ์ „์—

ํ™•๋ฅ ๊ฒ€์ƒ‰๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ์ˆ˜์‹์—๋Š” 'ํ™•๋ฅ ' ์ •๋ณด๊ฐ€ ๋ณด์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์•„๋ž˜์˜ ์„ค๋ช…์€ ํ™•๋ฅ ๊ฒ€์ƒ‰๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ํ™•๋ฅ ์ •๋ณด๊ฐ€ ๋ณด์ด์ง€ ์•Š๋Š” ์ˆ˜์‹์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€? ์–ด๋–ป๊ฒŒ ๊ทธ ์ˆ˜์‹์ด ์œ ๋„๋˜์—ˆ๋Š”๊ฐ€? ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์„ ์™ธ์šธ๋ ค๊ณ ํ•˜์ง€๋ง๊ณ , ์ด๊ฒŒ ๋ฌด์Šจ ๊ณผ์ •์ธ์ง€ ์ดํ•ดํ•˜๋„๋ก ํ•ฉ์‹œ๋‹ค. (๋ฌธ์ œ๋Š” ์™„์„ฑ๋œ ๊ฐ„๋‹จํ•œ ์ˆ˜์‹์„ ์™ธ์›Œ์„œ ํ’€๋ฉด ๋ฉ๋‹ˆ๋‹ค.)

# ํ™•๋ฅ  ๊ฒ€์ƒ‰ ๋ชจ๋ธ

์‚ฌ์šฉ์ž์˜ ์งˆ์˜์— ๋Œ€ํ•œ ์ ํ•ฉํ™•๋ฅ ์˜ ์—ญ์ˆœ์œผ๋กœ ๋ฌธ์„œ๋ฅผ ์ˆœ์œ„ํ™”ํ•˜๋Š” ์•„์ด๋””์–ด๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒ€์ƒ‰๋ชจ๋ธ.

 

[์งˆ์˜๋ฌธ(Q)์— ๋Œ€ํ•ด์„œ ๋‚˜์˜จ ๋ฌธ์„œ D๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ผ ํ™•๋ฅ ]

์งˆ์˜๋ฌธ(Q)์— ๋Œ€ํ•ด 1. ํ•ด๋‹น ๋ฌธ์„œ(D)๊ฐ€ ๋‚˜์˜จ๋‹ค์Œ 2. ๊ทธ ๋ฌธ์„œ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ(R, rel) ์ธ ํ™•๋ฅ ์ด๋ผ๋Š” ์˜๋ฏธ๋กœ

$P(ํ™•๋ฅ |์กฐ๊ฑด)$ $=>$ $P(R | D)$   ๋˜๋Š”   $P(R | Q,D)$  ๋ผ๊ณ  ์ ๋Š”๋‹ค.

์ด 2๊ฐœ์˜ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋ฉด ํ™•๋ฅ  ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ? ์—์„œ ์ถœ๋ฐœํ•œ ์•„์ด๋””์–ด.

 

ํ™•๋ฅ  ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ์•„์ด๋””์–ด๋Š” ์–ด๋– ํ•œ ๋ฌธ์„œ D๋ฅผ ๋ฝ‘์•˜์„ ๋•Œ ์ ํ•ฉ๋ฌธ์„œ์ผ ํ™•๋ฅ (rel), ๋ถ€์ ํ•ฉ ๋ฌธ์„œ์ผ ํ™•๋ฅ (non-rel)์„ ๊ฐ๊ฐ ๊ตฌํ•ด์„œ

 

 

๋”๋ณด๊ธฐ

1. ์กฐ๊ฑด๋ถ€ํ™•๋ฅ  ๊ณต์‹ ์œ ๋„ํ•˜๊ธฐ

์‚ฌ๊ฑด A, B์™€ ๊ทธ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ  $P(A) P(B)$๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž. (๋‹จ, $P(B) > 0$)

์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด ๋‚œ ํ›„ ์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ ์„ $P(A|B)$๋ผ๊ณ  ์“ฐ์ž ๊ทธ๋Ÿฌ๋ฉด

$P(A|B) = \frac{A,B๊ฐ€๋™์‹œ์— ์ผ์–ด๋‚  ํ™•๋ฅ }{B๊ฐ€์ผ์–ด๋‚  ํ™•๋ฅ }$ ์ด๋ ‡๊ฒŒ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๊ณ  ์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ

$P(A|B) = \frac{P(A \cap B)}{P(B)}$ ๋ผ๊ณ  ์ ์„ ์ˆ˜ ์žˆ๋‹ค.

 

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ฑฐ๊พธ๋กœ ๋’ค์ง‘์–ด A๊ฐ€ ์ผ์–ด๋‚œ ํ›„ B๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ ์€

$P(B|A) = \frac{P(A \cap B)}{P(A)}$ ์ด๋‹ค.

 

์ด ๋‘ ์‹์„ ์ด์šฉํ•˜๋ฉด 

$P(A \cap B)$ =  $P(A|B) * P(B)$ = $P(B|A) * P(A)$ ๋ผ๋Š” ์‹์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.  

 

๋‘ ์‚ฌ๊ฑด A,B์ด ์ผ์–ด๋‚  ํ™•๋ฅ ์ด ์„œ๋กœ์—๊ฒŒ ์ „ํ˜€ ์˜ํ–ฅ๋ผ์น˜์ง€์•Š๋Š”, ๋…๋ฆฝ์‚ฌ๊ฑด์ด๋ผ๊ณ  ํ•œ๋‹ค๋ฉด

$P(A \cap B)$ = $P(A) * P(B)$ ์ด๋‹ค.

์ด๋Š” ๋‘ ์‚ฌ๊ฑด์ด ์•„๋‹ˆ๋ผ A,B,C,D... ์—ฌ๋Ÿฌ๊ฐœ๊ฐ€ ์žˆ์–ด๋„ ๋งˆ์ฐฌ๊ฐ€์ง€์ด๋‹ค.

$P(A \cap B \cap C \cap D)$ = $P(A) * P(B) * P(C) * P(D)$ 

 

3. ๋ถ„ํ• 

์‚ฌ๊ฑด A๋ฅผ ์—ฌ๋Ÿฌ๊ฐœ๋กœ ๋ถ„ํ•  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์‚ฌ๊ฑด A๋ฅผ $A_1, A_2 ... A_n$ ๊ฐœ๋กœ ๋ถ„ํ• ํ•œ๋‹ค๋ฉด ์ด๋Ÿฐ๋Š๋‚Œ. (๋‹น์—ฐํžˆ ์„œ๋กœ ๊ฒน์น˜์ง€์•Š๊ฒŒ, ๊ฐ๊ฐ์˜ ์‚ฌ๊ฑด์ด ์„œ๋กœ์†Œ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ)

 

4. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ (Bayes' Law)

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” $P(B|A) = \frac{P(A \cap B)}{P(A)}$ ์—์„œ ๋ถ„๋ชจ $P(A)$๊ฐ’์„ ์œ ๋„ํ•˜๋Š” ๊ณผ์ •์—์„œ ์ถœ๋ฐœํ•œ๋‹ค.

 

$P(A \cap B)$ = $P(A) * P(B)$

์ด ์‹์—์„œ ์‚ฌ๊ฑด B๋ฅผ $B_1, B_2 ... B_n$ ๊ฐœ๋กœ ๋ถ„ํ•  ํ•œ๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ ์„ ์ˆ˜ ์žˆ๋‹ค.

$A =$ $(A \cap B_1)$ $\cup$ $(A \cap B_2)$ $\dots \cup$ $(A \cap B_n)$

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์—ฌ๊ธฐ์— ๊ฐ๊ฐ์˜ ํ™•๋ฅ ์„ ๊ตฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์€ ์‹์ด ๋งŒ๋“ค์–ด์ง€๊ณ 

$P(A) =$ $P(A \cap B_1)$ $\cup$ $P(A \cap B_2)$ $\dots \cup$ $P(A \cap B_n)$

 

์‚ฌ๊ฑด A๊ฐ€ ์ผ์–ด ๋‚ฌ์„ ๋•Œ, B์˜ ๋ถ„ํ•  ์ค‘ ํ•˜๋‚˜์ธ B_j๋ผ๋Š” ์‚ฌ๊ฑด์ด ๊ฐ™์ด ์ผ์–ด๋‚  ํ™•๋ฅ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ด ์‹์˜ ํ•ต์‹ฌ์€, ์‚ฌ๊ฑด $A$๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ $B_j$๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ  ($P(B_j|A)$)์„ ๊ฑฐ๊พธ๋กœ ๋’ค์ง‘์€

$B$๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ์˜ ํ™•๋ฅ ๋“ค ($P(A|B_1), P(A|B_2) \dots P(A|B_k) ๋“ค$)๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์— ์žˆ๋‹ค.

 

5. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ์‘์šฉ

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” ์‚ฌ์ „์ •๋ณด, ์ฆ‰ '๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•ด ์–ด๋– ํ•œ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ  ๊ฐ’์„ ์ด๋ฏธ ์•Œ๊ณ  ์žˆ์„ ๋•Œ' ์‚ฌ์šฉ๋˜๋ฉฐ ์ด๋ฅผ ์ด์šฉํ•˜์—ฌ [์–ด๋– ํ•œ ์‚ฌ๊ฑด A ๋ฐœ์ƒ ์ดํ›„ ์ผ์–ด๋‚  ํ™•๋ฅ ] $P(\theta | A)$ ๋ฅผ ๊ตฌํ•  ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด [๋‚ด์ผ ํ•˜๋ฃจ ์ฃผ์‹์ด ์˜ค๋ฅผ ํ™•๋ฅ ]์„ $\theta$ ๋ผ๊ณ  ๊ฐ€์ •ํ•˜์ž ($\theta$ ๋Š” 0.0~1.0 ์‚ฌ์ด๊ฐ’)

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•ด [์ฃผ์‹์ด ์˜ค๋ฅผ ํ™•๋ฅ ] $\theta$ ๊ฐ€ 0.4์ผ ํ™•๋ฅ ์ด 50%, 0.5์ผ ํ™•๋ฅ ์ด 50%์ž„์„ ์ฐพ์•„๋ƒˆ๋‹ค๋ฉด

$P(\theta = 0.4)$ = 0.5    $P(\theta = 0.6)$ = 0.5 ์œผ๋กœ ์ ์„ ์ˆ˜ ์žˆ๋‹ค.

 

์—ฌ๊ธฐ์—์„œ ์ฃผ๊ฐ€๊ฐ€ 3์ผ ์—ฐ์†์œผ๋กœ ์˜ค๋ฅผ ํ™•๋ฅ ์„ A๋ผ๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

3์ผ ์—ฐ์†์œผ๋กœ ์˜ฌ๋ž์œผ๋‹ˆ A๋Š” [๋‚ด์ผ ํ•˜๋ฃจ ์ฃผ์‹์ด ์˜ค๋ฅผ ํ™•๋ฅ ]์„ 3๋ฒˆ ๊ณฑํ•˜๋ฉด ๋œ๋‹ค. $P(A)$ = $\theta^3$

์œ„์—์„œ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•ด [์ฃผ๊ฐ€๊ฐ€ ์˜ค๋ฅผ ํ™•๋ฅ   $\theta$]๊ฐ€ 0.6์ด ๋  ํ™•๋ฅ ์ด 50%์ž„์„ ์•Œ๊ณ ์žˆ์œผ๋‹ˆ

์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒ ํ•œ ํ›„, [์ฃผ๊ฐ€๊ฐ€ ์˜ค๋ฅผ ํ™•๋ฅ   $\theta$]๊ฐ€ 0.6์ด ๋  ํ™•๋ฅ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

์œ„์—์„œ ์œ ๋„ํ•œ ์‹์„ ๊ทธ๋Œ€๋กœ ์ ์€ ๊ฒƒ ๋ฟ์ด๋‹ค. A= 0^3 (์„ธํƒ€ ์„ธ์ œ๊ณฑ)

์ฆ‰ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ํ™•๋ฅ  ์ •๋ณด๋ฅผ ์‘์šฉํ•ด์„œ ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ๋„์ถœํ•ด๋‚ด๋Š” ๊ณต์‹์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.

 

์•„๋ž˜ ์ ํ•ฉ๋ฌธ์„œ ํ™•๋ฅ ์— ๋ฒ ์ด์ฆˆ ๊ณต์‹์„ ์ ์šฉํ•œ ์˜ˆ

 

 

๋‹ค๋งŒ, ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ํ™•๋ฅ ์„ ๊ตฌํ•˜๋ ค๋ฉด

์งˆ์˜์— ๋Œ€ํ•œ ๋ชจ๋“  ์ ํ•ฉ ๋ฌธ์„œ(R)์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์–ด์•ผ ํ•˜๊ณ 

์ ํ•ฉ๋ฌธ์„œ์ผ ํ™•๋ฅ (R), ๋ฌธ์„œ๊ฐ€ ๊ฒ€์ƒ‰๋  ํ™•๋ฅ (D) ์ด ์„œ๋กœ ๋…๋ฆฝ์ ์ธ ํ™•๋ฅ ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ด์•ผํ•œ๋‹ค.

<๊ถ๊ธˆํ•œ ์นœ๊ตฌ๋ฅผ ์œ„ํ•œ ์ถ”๊ฐ€ ์„ค๋ช… ๋งํฌ>

 

๋…๋ฆฝ์ ์ธ ํ™•๋ฅ ์€ ๊ฐ€์ •ํ•œ๋‹ค ์ณ๋„ ๋ชจ๋“  ์ ํ•ฉ๋ฌธ์„œ์— ๋Œ€ํ•œ ์ •๋ณด๋Š” ์–ด๋–ป๊ฒŒ ๊ตฌํ•˜์ฃ ?

๋”๋ณด๊ธฐ

์‚ฌ๋žŒ์ด ์ˆ˜์ž‘์—…์œผ๋กœ ๋งŒ๋“ ๋‹ค.

ํ˜„์žฌ์˜ ๊ฒ€์ƒ‰์‹œ์Šคํ…œ๋“ค์€ ์ž๋™ ์ ํ•ฉ์„ฑ ํ”ผ๋“œ๋ฐฑ์„ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•˜๋Š”๋ฐ ๊ณผ์ •์€ ์ƒ๊ฐ๋ณด๋‹ค ๋ณต์žกํ•˜๋‹ˆ ๋Œ€์ถฉ ์•Œ์•„๋ณด๊ณ  ๋„˜์–ด๊ฐ€์ž. #10 ๊ธ€์— ์ ํ•ฉ์„ฑํ”ผ๋“œ๋ฐฑ์— ๋Œ€ํ•œ ๋‚ด์šฉ์„ ์ถ”๊ฐ€๋กœ ์„ค๋ช…ํ•˜๊ฒ ๋‹ค. 

์ž๋™ ์ ํ•ฉ์„ฑ ํ”ผ๋“œ๋ฐฑ์€ ํšจ๊ณผ๊ฐ€ ์—†์„ ๊ฒƒ ๊ฐ™์ง€๋งŒ, ์ ์šฉ ํ–ˆ์„ ๋•Œ ๊ฒฐ๊ณผ๊ฐ€ ๋” ์ข‹์•„์ง„๋‹ค๋Š” ๋…ผ๋ฌธ์ด ๋งŽ์•„์„œ ์‚ฌ์šฉ๋œ๋‹ค.

 

 

P (RD)๋Š” ํŠน์ • ์งˆ์˜(Q)์— ๋Œ€ํ•ด ๋‚˜์˜จ ๋ฌธ์„œ๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

 

๋ฒ ์ด์ฆˆ ๊ณต์‹์„ ์ ์šฉํ•œ ๋ชจ์Šต. ์ฒซ๋ฒˆ์จฐ ์‹์˜ ๋ชจ์–‘์„ ๋ฐ”๊พผ ๊ฒƒ ๋ฟ์ด๋‹ค.

๋‹ค๋งŒ ์ •๋ณด๊ฒ€์ƒ‰์—์„œ๋Š” '๋ช‡๋ฒˆ์งธ ์ˆœ์œ„๊นŒ์ง€ ์œ„ ์‹์„ ๋งŒ์กฑํ•˜๋Š” ๋ฌธ์„œ์ธ๊ฐ€?'๋ฅผ ์ฐพ์„ ํ•„์š”๊ฐ€ ์—†๋‹ค.

๊ทธ๋ƒฅ ์ ์ˆ˜๋ฅผ ๋งค๊ธธ ์ˆ˜ ์žˆ๋Š” ๊ฐ€์ค‘์น˜ ๊ณต์‹๋งŒ ์žˆ๋‹ค๋ฉด, ๊ทธ ๊ณต์‹์„ ์ด์šฉํ•ด์„œ ์ƒ์œ„๋ฌธ์„œ ์ˆœ์œ„๋งŒ ์ •ํ•˜๋ฉด ๋œ๋‹ค.

๋‹ค์‹œ ๋งํ•ด์„œ ์œ„ ๊ณต์‹์—์„œ ๋‚˜์˜จ $\frac{P(NR)}{P(R)}$์€ ๊ตณ์ด ์‚ฌ์šฉํ•˜์ง€ ์•Š์•„๋„ ์ƒ๊ด€์—†๋‹ค. (์ด ๋ฌธ์„œ์˜ ์ ํ•ฉ๋ฌธ์„œ ํ™•๋ฅ , ๋ถ€์ ํ•ฉ ๋ฌธ์„œ ํ™•๋ฅ ์„ ๋น„๊ตํ•ด์„œ ์ ํ•ฉํ™•๋ฅ ์ด ๋†’์€ ๊ฒฝ๊ณ„๊ฐ’์„ ์ฐพ์„ ํ•„์š”๊ฐ€ ์—†๋‹ค๋Š” ๋ง์ด๋‹ค.)

 

๊ฒฐ๊ตญ $\frac{P(D|R)}{P(D|NR)}$์ด ํฐ ๊ฐ’์ด ์ •ํ™•๋ฅ  ์ˆœ์œ„๊ฐ€ ๋†’๋‹ค๋Š” ๋ง์ด๋‹ˆ๊นŒ.

๊ทธ๋ž˜์„œ ํ™•๋ฅ  ๊ฒ€์ƒ‰๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜(์ •ํ™•๋„)๋Š” $\frac{P(D|R)}{P(D|NR)}$ ๋งŒ ์‚ฌ์šฉํ•œ๋‹ค.

์ด์ง„๋…๋ฆฝ๋ชจ๋ธ์€ ๋ฐ”๋กœ ์•„๋ž˜์— ์„ค๋ช…์ด ์ ํ˜€์žˆ์–ด์š”.


# ํ™•๋ฅ  ๊ฒ€์ƒ‰๋ชจ๋ธ์˜ ๋ชจํ˜•

๋ฒกํ„ฐ๊ณต๊ฐ„ ๋ชจ๋ธ์ฒ˜๋Ÿผ, ํ™•๋ฅ  ๊ฒ€์ƒ‰๋ชจ๋ธ์—์„œ ์šฉ์–ด์˜ ์ ํ•ฉ์—ฌ๋ถ€๋Š” ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ณ„์‚ฐ ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ด ๊ธ€์—์„œ๋Š” ๊ฐ„๋‹จํ•˜๊ฒŒ ์ด์ง„๊ฒ€์ƒ‰๋ชจ๋ธ (BIM)๋งŒ ์‚ฌ์šฉํ•ด๋ณด๊ฒ ๋‹ค.

์ด๋Š” ์ด๋ฆ„ ๊ทธ๋Œ€๋กœ ์šฉ์–ด์˜ ์ถœํ˜„ ์—ฌ๋ถ€๋ฅผ ์ด์ง„์œผ๋กœ ๊ตฌ๋ถ„, ์ฆ‰ ์žˆ๋‹ค(1) ์—†๋‹ค(0) ์‚ฌ์šฉํ•˜๊ณ  ๋ฌธ์„œ ๋‚ด ์šฉ์–ด๋“ค์˜ ํ™•๋ฅ ์€ ์„œ๋กœ ๊ด€๋ จ์—†๋Š” ๋…๋ฆฝ์ (Independence)์ธ ํ™•๋ฅ ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค. (๋ฒ ์ด์ฆˆ ๊ณต์‹์„ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•จ)

๋‹จ์–ด๋“ค์ด ๋…๋ฆฝ์ ์ด์ง€ ์•Š๋Š”๋ฐ ์–ด๋–ป๊ฒŒ ์ด ๋ชจ๋ธ์ด ๋™์ž‘ํ•˜๋Š”์ง€๋Š” ์•„์ง ์ •ํ™•ํ•˜๊ฒŒ ๋ฐํ˜€๋‚ด์ง€ ์•Š์•˜๋‹ต๋‹ˆ๋‹ค.. ๊ทธ๋ƒฅ ์จ๋ณด๋‹ˆ ์„ฑ๋Šฅ์ด ์ข‹๊ธธ๋ž˜ ๊ทธ๋ ‡๋‹ค ์น˜๊ณ  ์“ฐ๋Š”์ค‘

 

# ์ง์ ‘ ๊ตฌํ•ด๋ณด์ž

์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ์˜ˆ์˜๊ฒŒ ๋งŒ๋“ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

๊ทธ๋ƒฅ ์œ„์— ์‹์„ ๋ฐ˜์œผ๋กœ ๋‚˜๋ˆ  product๋กœ ๊ณ„์‚ฐํ•˜๊ธฐ ํŽธํ•˜๊ฒŒ ์ ์€ ๊ฒƒ ๋ฟ์ด๋‹ค.

product ๊ธฐํ˜ธ
์ œ์ผ ์•„๋ž˜ ์ˆ˜์‹์€ {car, Lincoln ..} ์ด๋Ÿฐ ์šฉ์–ด๋ฅผ {1,2,3..} ์œผ๋กœ ์ผ๋ฐ˜ํ•ญ์œผ๋กœ ๋ฐ”๊พธ์—ˆ์„ ๋•Œ ๋‚˜์˜ค๋Š” ์ˆ˜์‹.

์ฐธ๊ณ ๋กœ ๋งˆ์ง€๋ง‰์— $P_i$๋Š” [i๋ฒˆ์งธ ์šฉ์–ด๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์—์„œ ๋‚˜์˜ฌ ํ™•๋ฅ ],   $S_i$๋Š” [i๋ฒˆ์งธ ์šฉ์–ด๊ฐ€ ๋ถ€์ ํ•ฉ ๋ฌธ์„œ์—์„œ ๋‚˜์˜ฌ ํ™•๋ฅ ]์„ ์˜๋ฏธํ•œ๋‹ค.

 

๊ณ„์‚ฐํ•˜๊ธฐ ํŽธํ•œ ๊ณต์‹์„ ๋งŒ๋“œ๋Š” ์œ ๋„๊ณผ์ • (์ง€์ ธ์Šค..)

๋”๋ณด๊ธฐ

 

์ด ๊ทธ๋ฆผ์—์„œ๋Š” ๋งˆ์ง€๋ง‰ ์šฐ์ธกํ•ญ์ด '์ƒ์ˆ˜' ๋ผ์„œ ๋ฒ„๋ ค๋„ ์ƒ๊ด€์—†๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•˜๋Š” ๋‚ด์šฉ.
์ˆ˜์‹์„ ์œ ์‚ฌํ•œ ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ” ๋” ๊ณ„์‚ฐํ•˜๊ธฐ ํŽธํ•˜๊ฒŒ ๋ณ€๊ฒฝ. log๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ณฑ์…ˆ์ด ๋ง์…ˆ์—ฐ์‚ฐ์œผ๋กœ ๋ฐ”๋€๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ๊ฐ’์„ RSV(๊ฒ€์ƒ‰ ์ƒํƒœ ๊ฐ’, ๊ฐ€์ค‘์น˜)๋ผ๊ณ  ๋ถ€๋ฆ„
์งˆ์˜ Q์— ๋Œ€ํ•œ ๊ณ„์‚ฐ์€ ํ•„์š”์—†๋‹ค๋Š” ์„ค๋ช…. ์œ„์—์„œ ๊ตฌํ•œ RSV๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•

 

# ์ฑ… ๋˜์ง€๊ธฐ ์ „์— ์˜ˆ์ œ๋ถ€ํ„ฐ ๋ด…์‹œ๋‹ค.

๊ฐ ์šฉ์–ด์˜ ์ ํ•ฉ๋ฌธ์„œ์ง‘ํ•ฉ, ๋ถ€์ ํ•ฉ๋ฌธ์„œ์ง‘ํ•ฉ์—์„œ ์ถœํ˜„ ์ •๋ณด๊ฐ€ ์žˆ๋‹ค๋ฉด ๊ณ„์‚ฐ์ด ์—„์ฒญ ๊ฐ„๋‹จํ•ด์ง„๋‹ค.

* ์ ํ•ฉ๋ฌธ์„œ์ธ๋ฐ (Relevant) ์งˆ์˜ ๋‚ด์šฉ(๋ถ€์‚ฐ) ์ด ์—†๋Š” ๋ฌธ์„œ๋„ ์žˆ๋‹ค๋Š”๊ฑธ ์œ ์˜ํ•˜์ž. 

์ ํ•ฉ๋ฌธ์„œ ์ง‘ํ•ฉ ๋‚ด์—์„œ '๋ถ€์‚ฐ'์˜ DF = 2,     ๋ถ€์ ํ•ฉ์ด๋ฉด ์ „์ฒด(1000) - 2%

 

1. ์ถœํ˜„ ์ •๋ณด๊ฐ€ ์ฃผ์–ด์ง„๋‹ค๋ฉด (↑๊ทธ๋ฆผ)

๋ถ€์‚ฐ์ด ์ ํ•ฉ๋ฌธ์„œ์— ์žˆ์„ ํ™•๋ฅ  $= \frac{๋ถ€์‚ฐ์ด ์ถœํ˜„ํ•œ ์ ํ•ฉ๋ฌธ์„œ}{์ „์ฒด์ ํ•ฉ๋ฌธ์„œ}$,   $P_๋ถ€ = \frac{r_๋ถ€}{R}$

๋ถ€์‚ฐ์ด ๋ถ€์ ํ•ฉ๋ฌธ์„œ์— ์žˆ์„ ํ™•๋ฅ ์€ [์ „์ฒด - ์ ํ•ฉ๋ฌธ์„œ ๊ฐœ์ˆ˜]๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ

$= \frac{(๋ถ€์‚ฐ์ด ์ถœํ˜„ํ•œ ๋ชจ๋“ ๋ฌธ์„œ)-(๋ถ€์‚ฐ์ด ์ถœํ˜„ํ•œ ์ ํ•ฉ๋ฌธ์„œ)}{(์ „์ฒด๋ฌธ์„œ์ˆ˜)-(์ ํ•ฉ๋ฌธ์„œ์ˆ˜)}$, ์ฆ‰ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค.

R = ์ ํ•ฉ๋ฌธ์„œ์ผ ํ™•๋ฅ , S = ๋ถ€์ ํ•ฉ๋ฌธ์„œ์ผ ํ™•๋ฅ 

2. ๋งŒ์•ฝ ์ถœํ˜„์ •๋ณด๊ฐ€ ์—†๋‹ค๋ฉด

$P_i = \frac{1}{2}$,     $S_i = \frac{n_i}{N}$ ๋กœ ๊ฐ€์ •ํ•˜๊ณ  ๊ตฌํ•˜๋ฉด ๋œ๋‹ค.

$P_๋ถ€ = \frac{1}{2}$,     $S_๋ถ€ = \frac{n_๋ถ€}{N}$ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๋ฉด ๋œ๋‹ค.

 

 

3. ์š”์•ฝํ•ด์„œ, ํŠน์ •๋‹จ์–ด i์— ๋Œ€ํ•ด์„œ

$\{ r_i, n_i , R, N \}$ ์ด ์ฃผ์–ด์ง€๋ฉด ์ ํ•ฉํ™•๋ฅ ($P_i$), ๋ถ€์ ํ•ฉํ™•๋ฅ ($S_i$)์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค

$r_i$ = ์ ํ•ฉ๋ฌธ์„œ์—์„œ i๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ์ˆ˜ (* i๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜์ด๋‹ค. ๋‹จ์–ด์˜ ๊ฐœ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋‹ค.)

$n_i$ = ์ „์ฒด๋ฌธ์„œ์—์„œ i๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ์ˆ˜

$R$ = ์ ํ•ฉ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜

$N$ = ์ „์ฒด ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜

 

4. ์‹ค์ œ ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์ˆ˜์‹์œผ๋กœ ์ ์šฉํ•œ๋‹ค๋ฉด

์œ ๋„๊ณผ์ •์ด ๋ณต์žกํ•˜์ง€, ๊ณ„์‚ฐ์€ ์–ด๋ ต์ง€ ์•Š๋‹ค. ์•„๋ž˜ ๋ฌธ์ œ์—๋„ ๋‚˜์˜ค๋‹ˆ ํ•œ๋ฒˆ ๋ณด๊ณ  ๊ฐ€์ž.

- log๋ฅผ ์ด์šฉํ•ด์„œ ๊ณ„์‚ฐํ•˜๊ธฐ ํŽธํ•œ ์‹์œผ๋กœ (์œ ์‚ฌ๊ฐ’์œผ๋กœ) ๋ณ€๊ฒฝํ•ฉ๋‹ˆ๋‹ค. ๋กœ๊ทธ๋Š” ๊ณฑ์…ˆ์—ฐ์‚ฐ์„ ๋ง์…ˆ์œผ๋กœ ๋ฐ”๊ฟ”์ค๋‹ˆ๋‹ค.

- log 0์€ ๊ณ„์‚ฐ์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ ๋ถ„์ž, ๋ถ„๋ชจ์— 0.5์”ฉ ๋”ํ•ด์ค๋‹ˆ๋‹ค.

์ด ๊ณต์‹์„ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•ด์„œ ํ‘œ๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

+0.5๋Š” log 0์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋„ฃ์€ ๊ฐ’์ž…๋‹ˆ๋‹ค.

 


#BM25(Best Match 25)

์œ„์˜ BIM(์ด์ง„๋ชจ๋ธ)์˜ ์ตœ์ข… ์‹์˜ ์œ ๋„๊ณผ์ •์„ ๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ, ๋ฌธ์„œ์˜ ์ถœํ˜„ํšŸ์ˆ˜์™€ ๊ธธ์ด๋งŒ์„ ์ด์šฉํ•ด์„œ ๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฆ‰ ์งˆ์˜(Q), ์ฆ‰ TF์š”์†Œ๊ฐ€ ๋ฐ”๋€Œ๋”๋ผ๋„ ๊ฐ€์ค‘์น˜์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ TF์™€ ๋ฌธ์„œ์˜ ๊ธธ์ด๋ฅผ ์ถ”๊ฐ€๋กœ ๋ฐ˜์˜ํ•œ๊ฒŒ BM25 ๋ชจ๋ธ์ด๋‹ค.

๋ฌธ์„œ(D)์™€ ์งˆ์˜(Q)์˜ TF์š”์†Œ๊ฐ€ ์ „ํ˜€ ์‚ฌ์šฉ๋˜์ง€ ์•Š์•˜๋‹ค.
b๋Š” ๋ฏธ๋ฆฌ ์„ค์ •๋œ ์ƒ์ˆ˜๊ฐ’์ด๋‹ค. ๋ณดํ†ต 0.75์ •๋„ ์‚ฌ์šฉ

๊ทธ๋Ÿฐ๋ฐ ๋ฌธ์„œ(D)์˜ TF์™€ ์งˆ์˜๋ฌธ(Q)์˜ TF๋Š” ์–ด๋–ป๊ฒŒ ๊ตฌํ–ˆ์„๊นŒ!?

์–ด๋–ป๊ฒŒ ๊ตฌํ–ˆ์„๊นŒ? ๊ณผ์—ฐ ์–ด๋–ค ์ˆ˜ํ•™์ฒœ์žฌ๊ฐ€ ์œ ๋„๊ณผ์ •์„ ํ†ตํ•ด ์ฆ๋ช…ํ–ˆ์„๊นŒ!?

 

์ •๋‹ต์€ ๋ชจ๋ฅธ๋‹ค. ๊ทธ๋ƒฅ ๊ฐ€์„ค์„ ์„ธ์šฐ๊ณ  ๋Š๋‚Œ ์ข‹์€ ๊ฐ’๋“ค ์ฐ์–ด๋„ฃ์—ˆ๋”๋‹ˆ ์„ฑ๋Šฅ์ด ์ข‹์•„์„œ ์“ฐ๊ณ ์žˆ๋‹ค. ์ง„์งœ๋กœ.

TF์™€ Length ๊ฐ’์„ ์–ด๋–ป๊ฒŒ ์ฐ์–ด์„œ ๋„ฃ์—ˆ์„๊นŒ์š”?

๋”๋ณด๊ธฐ

 

b๋Š” ๋ฏธ๋ฆฌ ์„ค์ •๋œ ์ƒ์ˆ˜๊ฐ’์ด๋‹ค. ๋ณดํ†ต 0.75์ •๋„ ์‚ฌ์šฉ

์ƒ์ˆ˜ b์˜ ๊ฐ’์ด 0์ด๋ผ๊ณ  ์ƒ๊ฐํ–ˆ์„ ๋•Œ

์ƒ์ˆ˜ k1, k2๊ฐ’์„ ์ ์ ˆํžˆ ์กฐ์ •ํ•˜๋ฉด TF๊ฐ’์— ๋”ฐ๋ผ ๊ทธ๋ž˜ํ”„๊ฐ€ linear (์„ ํ˜•, 1:1), sub-linear(๋กœ๊ทธ ๊ทธ๋ž˜ํ”„) ์ฒ˜๋Ÿผ ๊ฐ’์ด ๋งค๊ฒจ์ง„๋‹ค. ์ฆ‰ ๋ฒกํ„ฐ๊ณต๊ฐ„๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ 1+log tf ์™€ ์œ ์‚ฌํ•œ ๊ธฐ๋Šฅ์„ ํ•  ๊ฒƒ์ด๋ผ๊ณ  ์ถ”์ธกํ•ด์„œ ์‚ฌ์šฉํ•˜๋‹ˆ, ์‹ค์ œ๋กœ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ํ•œ๋‹ค. ๋ฌผ๋ก  ์ˆ˜ํ•™์ ์œผ๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ์ฆ๋ช…๋˜์ง€๋Š” ์•Š์•˜๋‹ค.

 

์—ฌ๊ธฐ์—์„œ ์ƒ์ˆ˜ b๋Š” ๋ฌธ์„œ ๊ธธ์ด์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•œ๊ฑด๋ฐ

(ํ‰๊ท ์ ์ธ ๋ฌธ์„œ ๊ธธ์ด์™€ ๋น„๊ตํ•ด์„œ, $\frac{๋ฌธ์„œ๊ธธ์ด}{ํ‰๊ท ๋ฌธ์„œ๊ธธ์ด]$) ๋ฌธ์„œ๊ธธ์ด๊ฐ€ ํด์ˆ˜๋ก ๊ฐ€์ค‘์น˜๊ฐ€ ์ค„์–ด๋“ค๋„๋ก ๋งŒ๋“  ๊ฒƒ์ด๋‹ค. ์ด๊ฒƒ๋„ ๋ฒกํ„ฐ๋ชจ๋ธ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ tf*idf / n ์™€ ์œ ์‚ฌํ•œ ๋™์ž‘์„ ํ•œ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋‹ค.

์•„, ๋ฌผ๋ก  ๋ฌธ์„œ์˜ ๊ธธ์ด๊ฐ€ ๊ธธ๋‹ค๊ณ  ๊ฐ€์ค‘์น˜๊ฐ€ ๋‚ฎ์•„์ ธ์•ผ ํ•œ๋‹ค๋Š” ๋ณด์žฅ์ด ์žˆ์„๊นŒ?
๋ฌผ๋ก  ๋ฐ˜๋Œ€๋กœ ์ƒ๊ฐํ•˜๋Š” ์‚ฌ๋žŒ๋„ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๋‚ฎ์•„์ง„๋‹ค๋Š” ๊ฐ€์„ค์„ ์‚ฌ์šฉํ•˜๋Š”๊ฒŒ ์„ฑ๋Šฅ์ด ๋” ์ข‹์•„์„œ ์‚ฌ์šฉํ•˜๋Š”๊ฑฐ ๋ฟ์ด๋‹ค.

 

๊ฒฐ๋ก 

์–ด์ฐŒ๋ณด๋ฉด BM25์˜ ์‹ 3๋ถ€๋ถ„์€ ๋ชจ๋“  ์งˆ์˜์šฉ์–ด์— ๋Œ€ํ•ด์„œ

$log idf * log tf(๋ฌธ์„œ) * log tf(์งˆ์˜๋ฌธ)$ ์˜ ๊ฐ’์„ ๋”ํ•œ ์ˆ˜์‹์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฑฐ๊ธฐ์— tf(๋ฌธ์„œ)์— ๊ธธ์ด์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๊ฐ’(dl/avdl)์„ ๋„ฃ์€ ๊ฒƒ. 


์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•  ๋• ํ•ด๋‹น ์ˆ˜์‹์„ ๊ทธ๋ƒฅ ์™ธ์›Œ์„œ ์ ์œผ๋ฉด ๋œ๋‹ค. (์–ด์ฐจํ”ผ ๊ณ„์‚ฐ์€ ์ปดํ“จํ„ฐ๊ฐ€ ํ•ด์ฃผ๋‹ˆ๊นŒ)

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๋ง ๊ณผ์ •๊ณผ ๋น„์Šทํ•˜๋‹ค. ์ด๊ฒƒ์ €๊ฒƒ ๋„ฃ๋‹ค๋ณด๋‹ˆ ์„ฑ๋Šฅ์ด ์ข‹์€ ์ˆ˜์‹์„ ์ฐพ์€ ์ผ€์ด์Šค.. 

<๊ถ๊ธˆํ•œ ์นœ๊ตฌ๋ฅผ ์œ„ํ•œ ์„ค๋ช… ๋งํฌ> ๋ฅผ ์—ฌ๊ธฐ์ฏค์—์„œ ํ•œ๋ฒˆ ์ฝ๊ณ  ๊ฐ€์ž. ์ดํ•ด์— ๋„์›€์ด ๋ ๊ฑฐ๋‹ค.

 

 


# BM25 ์˜ˆ์ œ

์ด ์˜ˆ์ œ์—์„œ๋„ ์•Œ ์ˆ˜ ์žˆ์ง€๋งŒ, ํ™•๋ฅ  ๋ชจ๋ธ์ด๋ฉด ๊ฐ’์ด 0~1์‚ฌ์ด๋กœ ๋‚˜์™€์•ผํ•˜๋Š”๋ฐ ์ด๋Ÿฐ ์œ ๋„๊ณผ์ •์„ ๊ฑฐ์น˜๋‹ค ๋ณด๋‹ˆ ์ „ํ˜€ ์ƒ๊ด€์—†๋Š” ๊ฐ€์ค‘์น˜๊ฐ€ ๋‚˜์˜จ๋‹ค. ๋ญ ์ˆœ์œ„๋งŒ ์ž˜ ๋น„๊ตํ•˜๋ฉด ์ƒ๊ด€์—†๊ธด ํ•˜์ง€๋งŒ.



# ํ€ด์ฆˆ

๋‹ค์Œ์€ ์ „์ฒด 1000๊ฐœ์˜ ๋ฌธ์„œ๋กœ ๊ตฌ์„ฑ๋œ ๋ฌธ์„œ์ง‘ํ•ฉ์˜ ์ผ๋ถ€์™€ ์งˆ์˜ Q๋ฅผ ๋ณด์ธ ๊ฒƒ์ด๋‹ค.

$Q =$ [ํ•œ๊ตญ, ๋Œ€์„ ]

$D2 =$ [ํ•œ๊ตญ, ํ•œ๊ตญ, ๋Œ€์„ , ๋ฏธ๋ž˜, ์„ ๊ฑฐ]

$D3 =$ [๋ฏผ์ฃผ๋‹น, ๋Œ€์„ , ๋Œ€ํ†ต๋ น, ์„ ๊ฑฐ]

df(ํ•œ๊ตญ)=100,   df(๋Œ€์„ )=10,  df(๋ฏธ๋ž˜)=20,  df(์„ ๊ฑฐ)=10,  df(๋ฏผ์ฃผ๋‹น)=15,  df(๋Œ€ํ†ต๋ น)=20

 

 

A. ์•„๋ž˜ ์ด์ง„๋…๋ฆฝ๋ชจ๋ธ(BIM) ์ˆ˜์‹์„ ์ด์šฉํ•˜์—ฌ Q์™€ D2์˜ ์œ ์‚ฌ๋„ ๋ฐ Q์™€ D3์˜ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ๊ฐ๊ฐ ์ ์œผ์‹œ์˜ค.

ํ’€์ด

๋”๋ณด๊ธฐ

Sim(Q,D2)์™€ Sim(Q,D3)๋ฅผ ๊ตฌํ•˜๋ผ๋Š” ๋ฌธ์ œ. ๊ณต์‹์€ ๋ฌน์ œ์— ์ ์–ด์ฃผ์—ˆ์œผ๋‹ˆ ๊ทธ๋ƒฅ ํ’€๋ฉด๋œ๋‹ค.

์ฐธ๊ณ ๋กœ ํ•ด๋‹น ์ˆ˜์‹์€ ์ ํ•ฉ/๋น„์ ํ•ฉ ์ถœํ˜„์ •๋ณด๊ฐ€ ์—†์„ ๊ฒฝ์šฐ ์‚ฌ์šฉํ•˜๋Š” ํ™•๋ฅ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜ ์ˆ˜์‹(=idf)์ด๋‹ค.

 

Sim(Q,D2) ์—์„œ Q์™€ D2์— ๊ณตํ†ต์œผ๋กœ ์žˆ๋Š” ๋‹จ์–ด๋Š” {ํ•œ๊ตญ, ๋Œ€์„ }์ด๋‹ค.

ํ•œ๊ตญ, ๋Œ€์„ ์— ๋Œ€ํ•ด์„œ

$log \frac{N-n_ํ•œ}{n_ํ•œ}$

$log \frac{N-n_๋Œ€}{n_๋Œ€}$ ๋ฅผ ๊ตฌํ•œ ๋‹ค์Œ ๋”ํ•ด์ฃผ๋ฉด ๋œ๋‹ค.

 

$N$ : ์ „์ฒด ๋ฌธ์„œ ๊ฐœ์ˆ˜

$n_ํ•œ$ : ํ•œ๊ตญ์ด ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜ ( df(ํ•œ๊ตญ) = 100 )

$n_๋Œ€$ : ๋Œ€์„ ์ด ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜ ( df(๋Œ€์„ ) = 10 )

Sim(Q,D2) = $log\frac{1000-100}{100} + log\frac{100-10}{10}$

 

Sim(Q,D3) ์—์„œ Q์™€ D3์—์„œ ๊ณตํ†ต์œผ๋กœ ์žˆ๋Š” ๋‹จ์–ด๋Š” { ๋Œ€์„  } ์ด๋‹ค.

Sim(Q,D3) = $log\frac{100-10}{10}$

 

B. ์งˆ์˜ Q์˜ ์ ํ•ฉ๋ฌธ์„œ๋Š” ์ด 20๊ฐœ์ด๋ฉฐ, ์ ํ•ฉ๋ฌธ์„œ ์ง‘ํ•ฉ ๋‚ด์—์„œ df(ํ•œ๊ตญ)=5,   df(๋Œ€์„ )=7 ์ด๋ผ๊ณ  ํ•  ๋•Œ, ๋‹ค์Œ ์ˆ˜์‹์„ ์‚ฌ์šฉํ•˜์—ฌ Q์™€ D2์˜ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค.

ํ’€์ด

์ถฉ๋ถ„ํžˆ ํ’€ ์ˆ˜ ์žˆ์œผ๋‹ˆ ํ•œ๋ฒˆ ํ’€์–ด๋ณด๋„๋ก ํ•˜์ž.

 

๋ธ”๋กœ๊ทธ์˜ ์ •๋ณด

JiwonDev

JiwonDev

ํ™œ๋™ํ•˜๊ธฐ