JiwonDev

#9 ์–ธ์–ด ๋ชจ๋ธ(Language Model)

by JiwonDev

์šฐ๋ฆฌ๋Š” ์•ž์—์„œ 

๋ถˆ๋ฆฌ์–ธ ๋ชจ๋ธ

๋ฒกํ„ฐ๊ณต๊ฐ„๋ชจ๋ธ

ํ™•๋ฅ  ๋ชจ๋ธ(BIM, ์ด์ง„๋ชจ๋ธ๋งŒ ์„ค๋ช…ํ–ˆ์Œ)์„ ๋ฐฐ์› ๋‹ค.

 

์ด์ œ ๋งˆ์ง€๋ง‰์œผ๋กœ ๊ฐ€์žฅ ์ตœ๊ทผ์— ๋‚˜์˜จ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฐฐ์›Œ๋ณด์ž.

์‚ฌ์‹ค ํ™•๋ฅ  ๋ชจ๋ธ๋ณด๋‹ค ์–ธ์–ด ๋ชจ๋ธ์ด TF, IDF, Len์„ ์‚ฌ์šฉํ•œ ํ™•๋ฅ  ๊ณ„์‚ฐ์„ '์ œ๋Œ€๋กœ'ํ•˜๋Š” ๋ชจ๋ธ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

# ์–ธ์–ด ๋ชจ๋ธ์ด ๋ฌด์Šจ ์˜๋ฏธ์ฃ ?

[ Language Modeling Approach to IR ] ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ •๋ณด๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ•์„ ์˜๋ฏธํ•œ๋‹ค. (์–ธ์–ด ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ์•„๋‹ˆ๋‹ค)

๋จผ์ € ์–ธ์–ด๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ์ดํ•ด๋ฅผ ํ•œ ํ›„, ์–ธ์–ด๋ชจ๋ธ์„ ์ด์šฉํ•ด์„œ ์ •๋ณด๊ฒ€์ƒ‰ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋ณด์ž.

 

# Language Model

์–ด๋–ค ์–ธ์–ด์— ์†ํ•˜๋Š” ์ž„์˜์˜ ํ‘œํ˜„ (๋ฌธ์žฅ, ๊ตฌ, ๋‹จ์–ด)์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ (์‚ฌ์‹ค ์ด๊ฒŒ ์ง„์ •ํ•œ ํ™•๋ฅ ๋ชจ๋ธ์ด๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š”๊ฒŒ ๋งž๋Š”๊ฑฐ ๊ฐ™๊ธฐ๋„ ํ•˜๋‹ค.)

๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•œ๊ตญ์–ด์— ์žˆ๋Š” ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ํ‘œํ˜„์— ๋Œ€ํ•ด ํ™•๋ฅ ์„ ๊ณ„์‚ฐ. = <ํ•œ๊ตญ์–ด ๋ชจ๋ธ>

 

# N-gram Language Model

๋‹จ์–ด๋ฅผ N-gram์œผ๋กœ ๋‚˜๋ˆˆ ํ›„ ํ•ด๋‹น ๋‹จ์–ด๋“ค์„ ํ•˜๋‚˜์˜ ์‚ฌ๊ฑด์œผ๋กœ ๋ณด๊ณ  ์—ฐ์†์œผ๋กœ ๋‚˜์˜ฌ ํ™•๋ฅ ์„ ๊ณฑํ•˜๋Š” ๋ฐฉ๋ฒ•.

{ ๋Œ€ํ•œ, ํ•œ๋ฏผ, ๋ฏผ๊ตญ } ์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง„ 2-gram์ด ์žˆ๋‹ค๋ฉด

$ P(๋Œ€ํ•œ, ํ•œ๋ฏผ, ๋ฏผ๊ตญ) = P(๋Œ€ํ•œ) * P(ํ•œ๋ฏผ|๋Œ€ํ•œ) * P(๋ฏผ๊ตญ|๋Œ€ํ•œ, ํ•œ๋ฏผ) $

P(A,B) = P(A) P(BA) ๋ฅผ ๋ฐ˜๋ณตํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค.

* ์ฐธ๊ณ ๋กœ ์ด๋ ‡๊ฒŒ ์ถ”์ถœํ•œ ๋ง๋ญ‰์น˜๋ฅผ Corpus (๋ณต์ˆ˜ Corpora)๋ผ๊ณ  IR์—์„œ๋Š” ๋ถ€๋ฅธ๋‹ค. ๋˜ํ•œ N-gram์€ ์˜์–ด๋กœ ๋‚˜ํƒ€๋ƒˆ์„ ๋•Œ ๋” ์ž์—ฐ์Šค๋Ÿฝ๊ธด ํ•˜๋‹ค.

Docs : { an adorable little boy is spreading smiles }

(1) unigrams : an, adorable,  little,  boy,  is,  spreading,  smiles
(2) bigrams : an adorable,  adorable little,  little boy,  boy is,  is spreading,  spreading smiles
(3) trigrams : an adorable little,  adorable little boy,  little boy is,  boy is spreading,  is spreading smiles
(4) 4-grams : an adorable little boy,  adorable little boy is,  little boy is spreading,  boy is spreading smiles

 

{ ํ‰์ฐฝ, ๋™๊ณ„, ์˜ฌ๋ฆผํ”ฝ } ์ด๋ ‡๊ฒŒ 3๋‹จ์–ด๋กœ ์ชผ๊ฐœ์–ด ์กŒ๋‹ค๊ณ  ํ•˜๋ฉด

- 'ํ‰์ฐฝ' ์ด ๋‚˜์˜ฌ ํ™•๋ฅ  $P(ํ‰์ฐฝ)$ = $\frac{ํ‰์ฐฝ์ด ๋‚˜์˜จ ํšŸ์ˆ˜}{๋ชจ๋“  ๋‹จ์–ด์˜ ์ถœํ˜„ ํšŸ์ˆ˜}$

- 'ํ‰์ฐฝ' ๋‹ค์Œ์— '๋™๊ณ„'๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ  $P(๋™๊ณ„)$ = $\frac{ํ‰์ฐฝ, ๋™๊ณ„ ๊ฐ™์ด ๋‚˜์˜จ ํšŸ์ˆ˜}{ํ‰์ฐฝ์ด ๋‚˜์˜จ ํšŸ์ˆ˜}$

* ํ‰์ฐฝ์ด ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ์•„๋‹ˆ๋ผ, ์ด๋ฏธ ํ‰์ฐฝ์ด ๋‚˜์™”๋Š”๋ฐ ๋‹ค์Œ์— ๋™๊ณ„๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์ด๋ฏ€๋กœ ํ‰์ฐฝ์ด ๋‚˜์˜จ ๊ฒฝ์šฐ์—์„œ ํ‰์ฐฝ๊ณผ ๋™๊ณ„๊ฐ€ ํ•จ๊ป˜ ๋‚˜์˜จ ๋น„์œจ์„ ๊ณ„์‚ฐํ•˜๋ฉด ๋œ๋‹ค.

- 'ํ‰์ฐฝ ๋™๊ณ„' ์ดํ›„ ์˜ฌ๋ฆผํ”ฝ์ด ๋‚˜์˜ฌ ํ™•๋ฅ  = $\frac{์…‹ ๋‹ค ๋‚˜์˜จ ํšŸ์ˆ˜}{ํ‰์ฐฝ,๋™๊ณ„๊ฐ€ ๋‚˜์˜จ ํšŸ์ˆ˜}$

 

์ด๋Ÿฐ์‹์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ 'ํ‰์ฐฝ ๋™๊ณ„' ๋‹ค์Œ์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ์ •ํ•œ๋‹ค. ( ๋” ํ™•๋ฅ ๊ฐ’์ด ๋†’์€ ๊ฐ’)

 

* ์•ž์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฐ ๋‹จ์–ด๋งˆ๋‹ค ์•ž์˜ ํ™•๋ฅ ์„ ๊ณฑํ•˜๋ฉด ๋๋„ ์—†์ด ๊ณ„์‚ฐ ํ• ์ˆ˜๋„ ์žˆ๊ฒ ์ง€๋งŒ (Ex P(์˜ฌ๋ฆผํ”ฝ|ํ‰์ฐฝ ๋™๊ณ„ ์ข‹์•„ ๋Œ€๋ฐ• ...)) ๋ณดํ†ต n-gram์„ ์ด์šฉํ•œ ์–ธ์–ด ๋ชจ๋ธ์€ ์•ž์˜ n-1๊ฐœ์˜ ๋‹จ์–ด๋งŒ ํ™•๋ฅ ์— ํฌํ•จํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 4-gram์ด๋ผ๊ณ  ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ํ•ด๋‹น ๋‹จ์–ด ์•ž์˜ 3(= 4-1)๊ฐœ๋งŒ ํ™•๋ฅ  ๊ณ„์‚ฐ์„ ํ•œ๋‹ค.

4-gram์—์„œ๋Š” ๋ณดํ†ต n-1๊ฐœ์˜ ์•ž ๋‹จ์–ด, ์ฆ‰ 3๋‹จ์–ด (boy is spreading)์ด ๋‚˜์˜ฌ ํ™•๋ฅ ๋งŒ ๊ณ„์‚ฐํ•œ๋‹ค.


๋ฌผ๋ก  2-gram(2์Œ์ ˆ ๋‹จ์œ„)๋กœ ๋‹จ์–ด์˜ 2์นธ ์•ž๊นŒ์ง€๋งŒ ๊ณ„์‚ฐํ•˜๋”๋ผ๋„ ๊ณ„์‚ฐ์‹์ด ๋งค์šฐ ๋ณต์žกํ•˜๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” Unigram(์Œ์ ˆ์ด ์•„๋‹Œ ์˜๋ฏธ์žˆ๋Š” ๋‹จ์–ด๋‹จ์œ„) ์–ธ์–ด๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ์•ž์— ํ•œ ๋‹จ์–ด์˜ ํ™•๋ฅ ๋งŒ ๊ณฑํ•˜๋Š” IR ๊ฒ€์ƒ‰๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด ๋ณด๊ฒ ๋‹ค.

 

์ฐธ๊ณ ๋กœ ์–ธ์–ด๋ชจ๋ธ์—์„œ [ํŠน์ •๋ชจ๋ธ M]์„ ์‚ฌ์šฉํ–ˆ์Œ์„ ํ‘œ์‹œํ• ๋ ค๊ณ  ํ™•๋ฅ ์— $P(๋‹จ์–ด |M)$ ๋ผ๊ณ  ํ‘œ์‹œํ•˜๊ธฐ๋„ ํ•œ๋‹ค.

๊ฐ ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ ์„ ์ „๋ถ€ ๋‹คํ•˜๋ฉด 1์ด ๋˜๋„๋ก ๋งŒ๋“ค๋ฉด ๋œ๋‹ค. (๊ทธ๋ž˜์„œ ๊ฐœ๋ณ„ ๋‹จ์–ด์˜ ํ™•๋ฅ ์ˆ˜์น˜๊ฐ€ ๋งค์šฐ ์ž‘๋‹ค)

* ์ด ์•„๋ž˜์— ์žˆ๋Š” ๋ชจ๋ธ๋“ค์€ ์ „๋ถ€ Unigram์„ ๊ธฐ์ค€์œผ๋กœ ์„ค๋ช…ํ•˜๊ฒ ๋‹ค.


# ๋ฌธ์„œ ๋ชจ๋ธ (๋ฌธ์„œ์˜ ์–ธ์–ด๋ชจ๋ธ, document model)

์‚ฌ๋žŒ์ด ์–ด๋– ํ•œ ๋ฌธ์„œ๋ฅผ ์ž‘์„ฑํ•  ๋•Œ, ์–ด๋–ค ๋‹จ์–ด๋ฅผ ์ฃผ๋กœ ์‚ฌ์šฉํ• ์ง€๋Š” '๊ธ€์„ ์ž‘์„ฑํ•œ ์‚ฌ๋žŒ'์˜ ์ƒ๊ฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค.

IR ์šฉ์–ด๋กœ ๋งํ•˜๋ฉด, [๋ฌธ์„œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ์‚ฌ๋žŒ]์— ๋”ฐ๋ผ ํ•ด๋‹น [๋ฌธ์„œ์—์„œ ํŠน์ •๋‹จ์–ด๊ฐ€ ์ถœํ˜„ํ•  ํ™•๋ฅ (๋ฌธ์„œ๋ชจ๋ธ)]์ด ๋‹ฌ๋ผ์ง€๊ฒŒ ๋œ๋‹ค.

์ฆ‰, ๊ฒ€์ƒ‰์—์„œ์˜ ์–ธ์–ด๋ชจ๋ธ์€ [๊ฐ ๋ฌธ์„œ๋งˆ๋‹ค์˜ ์–ธ์–ด๋ชจ๋ธ] => ๋ฌธ์„œ ๋ชจ๋ธ์„ ์˜๋ฏธํ•˜๊ณ  ์ด๋ฅผ IR์— ์‚ฌ์šฉํ•œ๋‹ค.

 

์–ธ์–ด๋ชจ๋ธ์„ ์ด์šฉํ•œ IR์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ ๋ฌธ์„œ๋งˆ๋‹ค ํ•ด๋‹น ๋ฌธ์„œ์˜ ์–ธ์–ด๋ชจ๋ธ (๋ฌธ์„œ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ )์„ ์ฐพ์•„ ๋งŒ๋“ค์–ด์•ผ ํ•œ๋‹ค.

๊ฐ ๋ฌธ์„œ๋งˆ๋‹ค ์–ธ์–ด๋ชจ๋ธ์€ ๋‹ค๋ฅด๋‹ค. ์ •๋ณด๊ฒ€์ƒ‰(IR)์„ ์œ„ํ•ด์„  ์ด๋ฅผ ์ฐพ์•„๋‚ด์•ผํ•œ๋‹ค.

์ฐธ๊ณ ๋กœ ์ •ํ™•๋„ P์— [D์— ๋Œ€ํ•œ ์–ธ์–ด๋ชจ๋ธ]์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ์˜๋ฏธ๋กœ $P(๋‹จ์–ด|M_d)$๋ผ๊ณ  ํ‘œ๊ธฐํ•œ๋‹ค.


# ๋ฌธ์„œ๋ชจ๋ธ์€ ์–ด๋–ป๊ฒŒ ๋งŒ๋“œ๋‚˜์š”?

๋‹น์—ฐํžˆ ์–ด๋– ํ•œ ๋‹จ์–ด๋ฅผ ์ฃผ๋กœ ์‚ฌ์šฉํ–ˆ๋Š”์ง€๋Š” ๋ฌธ์„œ์˜ ์ž‘์„ฑ์ž๊ฐ€ ์•„๋‹Œ ์ด์ƒ ์•Œ๊ธฐ๋„ ์–ด๋ ต๊ณ  ์•ˆ๋‹คํ•ด๋„ ์ง์ ‘ ๋งŒ๋“ค๊ธฐ๋„ ์–ด๋ ต๋‹ค.

๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” ๋ฌธ์„œ๋กœ ๋ถ€ํ„ฐ ๋‹จ์–ด๋ฅผ Samplingํ•ด์„œ ๋ฌธ์„œ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค.

 

๋ฌธ์„œ๋ฅผ ๊ณต์ด ๋“  ๋ณด์ž๊ธฐ S ๋กœ ์˜ˆ๋ฅผ ๋“ค์–ด๋ณด์ž. ๋ณด์ž๊ธฐ ์•ˆ์—๋Š” ์ˆ˜ ๋งŽ์€ ๊ณต์ด ๋“ค์–ด ์žˆ์œผ๋ฏ€๋กœ, ์ „๋ถ€ ๊บผ๋‚ด์„œ ํ™•์ธํ•˜๋Š”๊ฑด ๋ถˆ๊ฐ€๋Šฅ์— ๊ฐ€๊น๋‹ค. ๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” Sampling์„ ํ†ตํ•ด ํ•ด๋‹น ๋ณด์ž๊ธฐ์—์„œ ๋ช‡ ๊ฐœ์˜ ๊ณต์„ ์ถ”์ถœํ•ด์„œ ์ถ”์ •ํ™•๋ฅ ์„ ๊ตฌํ•œ๋‹ค.

 

MLE (Maximum Likelihood Estimation) ๋ž€?

๋”๋ณด๊ธฐ

* ์ฐธ๊ณ ๋กœ ๊ณต์ด ๋‚˜์˜จ ๋น„์œจ๋กœ ๋‹จ์ˆœ ํ™•๋ฅ ์„ ๊ณ„์‚ฐ ํ•œ ๊ฒƒ์„ MLE (Maximum Likelihood Estimation, ์ตœ๋Œ€ ๊ฐ€๋Šฅ๋„ ํ‰๊ฐ€)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๊ทธ๋ž˜์„œ MLE๋กœ ํ™•๋ฅ  ๊ฐ’๋“ค์„ ๊ณ„์‚ฐํ•˜์—ฌ [๋ฌธ์„œ D์˜ ํ™•๋ฅ  ๋ถ„ํฌํ‘œ]๋กœ ๋งŒ๋“  ๊ฒƒ์ด ๊ณง ํ•ด๋‹น ๋ฌธ์„œ์˜ ์–ธ์–ด๋ชจ๋ธ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— D_MLE ๋ผ๊ณ  ์ ๋Š”๋‹ค.

ex) ์ถ”์ถœํ•œ ๋ฌธ์„œ($D'$)์˜ ํฌ๊ธฐ๊ฐ€ 10์ด๊ณ , ์†ก์ • 3๊ฐœ, ๋ฐ”๋‹ค2๊ฐœ, ๋‚š์‹œ 5๊ฐœ๊ฐ€ ๋‚˜์™”๋‹ค๋ฉด

D_MLE (=ํ™•๋ฅ ๋ถ„ํฌํ‘œ, ํ•ด๋‹น ๋ฌธ์„œ์˜ ์ถ”์ • ์–ธ์–ด๋ชจ๋ธ)

P(์†ก์ •) 3/10
P(๋ฐ”๋‹ค) 2/10
P(๋‚š์‹œ) 5/10

 

 

ํŒŒ๋ž€๊ณต2๊ฐœ, ๋…ธ๋ž‘๊ณต 1๊ฐœ๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ  => { ํŒŒํŒŒ๋…ธ, ํŒŒ๋…ธํŒŒ, ๋…ธํŒŒํŒŒ } ์˜ ํ™•๋ฅ ์„ ๊ตฌํ•ด์„œ ๋”ํ•˜๋ฉด ๋œ๋‹ค.

์ด๋ฅผ ์–ธ์–ด๋ชจ๋ธ์— ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

ํŠน์ • ๋ฌธ์„œ์—์„œ "์†ก์ •, ๋ฐ”๋‹ค, ๋‚š์‹œ"๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ  => { ์†ก๋ฐ”๋‚š, ์†ก๋‚š๋ฐ”, ๋‚š๋ฐ”์†ก, ๋‚š์†ก๋ฐ”, ๋ฐ”์†ก๋‚š, ๋ฐ”๋‚š์†ก} ์˜ ํ™•๋ฅ ์„ ๋”ํ•˜๋ฉด ๋œ๋‹ค.

D ๋ฌธ์„œ์˜ ์–ธ์–ด๋ชจ๋ธ(=ํ™•๋ฅ  ๋ถ„ํฌํ‘œ)๋ฅผ ๋งŒ๋“ค ๋•Œ ์ „์ฒด ๋ฌธ์„œ์˜ ํฌ๊ธฐ $D$๋กœ ๋‚˜๋ˆ„๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ $\frac{๋‹จ์–ด์˜ ๊ฐœ์ˆ˜}{์ถ”์ถœํ•œ ๋ฌธ์„œ D'์˜ ํฌ๊ธฐ}$ ์ž„์„ ์œ ์˜ํ•˜์ž.


# N-gram ์–ธ์–ด ๋ชจ๋ธ์˜ ํ•œ๊ณ„

์•ž์˜ ์˜ˆ์ œ์—์„œ ์•Œ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, N-gram ๋ชจ๋ธ์€ ๋ณดํ†ต (n-1)๊ฐœ์˜ ์•ž ๋‹จ์–ด๋งŒ ํ™•๋ฅ ์— ๋ฐ˜์˜ํ•œ๋‹ค.

๋Œ€์ถฉ ๋˜๊ฒ ์ง€ํ•˜๊ณ  ๋„˜์–ด ๊ฐˆ ์ˆ˜๋„ ์žˆ๊ฒ ์ง€๋งŒ, ๋งŒ์•ฝ ๋‹ค์Œ๊ณผ ๊ฐ™์€ 2๋ฌธ์žฅ(๋ง๋ญ‰์น˜, ์ฝ”ํผ์Šค๋ฐ์ดํ„ฐ)๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž.

A '~...~ ์ž‘๊ณ  ์‚ฌ๋ž‘์Šค๋Ÿฌ์šด ์†Œ๋…„์ด ๋ชจ์š•์ ์ธ ์š•์„ค์„ ํผ๋ถ€์—ˆ๋‹ค'

B '~...~ ์ž‘๊ณ  ์‚ฌ๋ž‘์Šค๋Ÿฌ์šด ์†Œ๋…„์ด ํ–‰๋ณตํ•˜๊ฒŒ ์›ƒ์Œ์„ ์ง€์—ˆ๋‹ค.'

[์ž‘๊ณ  ์‚ฌ๋ž‘์Šค๋Ÿฌ์šด ์†Œ๋…„]์ด๋ผ๋Š” ๋‹จ์–ด ๋‹ค์Œ์— ์˜ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ธกํ• ๋ ค๋ฉด, ๊ณผ์—ฐ ๋ช‡ ๋‹จ์–ด ์•ž๊นŒ์ง€ ์ฝ์–ด์•ผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์•ž์˜ 3๋‹จ์–ด๋งŒ ๋ณธ๋‹ค๋ฉด, ๋‹น์—ฐํžˆ B[ํ–‰๋ณตํ•˜๊ฒŒ ์›ƒ์Œ์„]์ด ๋งž๋Š” ์˜ˆ์ธก์ด๋ผ๊ณ  ์ƒ๊ฐ ํ•  ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ์ž‘์„ฑ์ž๊ฐ€ ์†Œ๋…„์„ ๋น„๊ผฌ๊ธฐ์œ„ํ•ด์„œ ์•ž์˜ 100๋‹จ์–ด๋ฅผ ์š•์œผ๋กœ ๋„๋ฐฐํ•ด๋†“๊ณ  ๋งˆ์ง€๋ง‰์— ์•ž์— ์‚ฌ๋ž‘์Šค๋Ÿฝ๋‹ค๋Š” ์ˆ˜์‹์„ ๋ถ™์˜€๋‹ค๋ฉด '๋ชจ์š•์ ์ธ' A๊ฐ€ ์ •๋‹ต์ผ ๊ฒƒ์ด๋‹ค.

 

์ฆ‰, n-gram์€ ์•ž์˜ ๋‹จ์–ด ๋ช‡๊ฐœ๋งŒ ๋ณด๋‹ค๋ณด๋‹ˆ ์˜๋„ํ•˜๊ณ  ์‹ถ์€๋Œ€๋กœ ๋ฌธ์žฅ์„ ๋๋งบ์Œ ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๊ณ  ์ด๋Š” ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ๊ณ ๋ คํ•œ ์–ธ์–ด๋ชจ๋ธ๋ณด๋‹ค ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์งˆ ์ˆ˜ ๋ฐ–์— ์—†๋‹ค.


# ํ™•๋ฅ  ๊ณฑ์…ˆ์ด 0์ด ๋˜๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ

์ด๋Š” ์ง์ ‘ ํ™•๋ฅ  ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ๊ณ„์‚ฐํ•˜๋ฉด์„œ ์•Œ์•„๋ณด์ž.

1. P(D|Q) ๋ฅผ ์•ž ๊ธ€์—์„œ ๋ฐฐ์šด ๋ฒ ์ด์ฆˆ ๊ณต์‹์„ ์ด์šฉํ•ด ์‹์„ ๋ณ€ํ˜•์‹œํ‚ค๊ณ , ๊ฑฐ๊ธฐ์— ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๋Š”๋ฐ ๋ฌด๊ด€ํ•œ ์š”์†Œ๋“ค์„ ์ตœ๋Œ€ํ•œ ์ œ๊ฑฐํ•˜์—ฌ ๊ฐ„๋‹จํ•œ ๊ฐ€์ค‘์น˜ ์ˆ˜์‹์„ ๋งŒ๋“ค์–ด ๋‚ธ๋‹ค. (์ •ํ™•ํ•œ ๊ฐ’์ด ํ•„์š”ํ•œ๊ฒŒ ์•„๋‹ˆ๋ผ, ๋น„๊ตํ•  ๊ฐ€์ค‘์น˜๊ฐ’์ด ํ•„์š” ํ•œ ๊ฒƒ์ด๋ฏ€๋กœ)

์ฆ‰, ๊ฐ ๋‹จ์–ด๋“ค์ด ๋ฌธ์„œ D์— ๋‚˜์˜ฌ ํ™•๋ฅ ์ด๋ฏ€๋กœ $P(q_1|D) * P(q_2|D) \dots P(q_n|D)$๋ฅผ ํ•ด์ฃผ๋ฉด ๋œ๋‹ค.

 

์ด๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ฒŒ ์‹ค์ œ ์˜ˆ์ œ๋กœ ์‚ดํŽด๋ณด์ž.

์ž˜ ๊ตฌํ•œ ๊ฒƒ ๊ฐ™์ง€๋งŒ, ํ™•๋ฅ ๊ฐ’์„ ๋‹จ์ˆœํžˆ $\frac{๋‹จ์–ด_i}{์ „์ฒด ๋‹จ์–ด ๊ฐœ์ˆ˜}$ ( =MLE ๋ฐฉ์‹)์œผ๋กœ ํ•ด๋ฒ„๋ฆฌ๋ฉด ํŠน์ •๋‹จ์–ด๊ฐ€ ์ถœํ˜„ํ•˜์ง€ ์•Š์€๊ฒฝ์šฐ(ex ๋ฉ”๋กฑ) ์ „์ฒด ํ™•๋ฅ ๊ฐ’์ด 0์ด ๋˜๋ฒ„๋ฆฐ๋‹ค๋Š” ํฐ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด

Q = [ ๋ถ€์‚ฐ, ์ž๊ฐˆ์น˜, ์‹œ์žฅ, ๋ฉ”๋กฑ ], D = [ ๋ถ€์‚ฐ, ์ž๊ฐˆ์น˜, ์‹œ์žฅ, ๊ด€๊ด‘]

์ด๋ ‡๊ฒŒ ์งˆ์˜๋ฌธ๊ณผ ๊ฑฐ์˜ ๋˜‘๊ฐ™์€ ๋ฌธ์„œ D๊ฐ€ '๋ฉ”๋กฑ' ํ•œ ๋‹จ์–ด ๋•Œ๋ฌธ์— P(Q|D) = 0์ด ๋‚˜์˜ค๋Š” ์น˜๋ช…์ ์ธ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. 


# ํฌ์†Œ์„ฑ(Sparsity) ๋ฌธ์ œ

๊ฐ€์ง€๊ณ ์žˆ๋Š” ๋ฌธ์„œ ๋ฐ์ดํ„ฐ์—์„œ ์ž์ฃผ ๋“ฑ์žฅํ•œ ๋‹จ์–ด๊ฐ€ ์•„๋‹ˆ๋ฉด, ํฌ์†Œ์„ฑ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด '๋งˆ๋ฆฌ๋ฃฝ์ƒค๋ฅผ ์š”๋ฆฌํ•˜๋‹ค'๋Š” ๊ฑฐ์˜ ์“ฐ์ด์ง€ ์•Š๋Š” ๋‹จ์–ด์ด์ง€๋งŒ, ๋ฌธ์žฅ์œผ๋กœ๋Š” ์˜ค๋ฅ˜๊ฐ€ ์—†๋Š” ์ •์ƒ์ ์ธ ๋ฌธ์žฅ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ž์ฃผ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š” ํฌ์†Œํ•œ ๋‹จ์–ด์ด๊ธฐ์— '๊ณผํ•™์ฑ…๊ฝ‚์ด๋ฅผ ์š”๋ฆฌํ•˜๋‹ค' '์Šคํ”ผ์ปค๋ฅผ ์š”๋ฆฌํ•˜๋‹ค' ๊ฐ™์€ ๋ง๋„ ์•ˆ๋˜๋Š” ๋ฌธ์žฅ๊ณผ ๊ฐ™์€ ํ™•๋ฅ (์ •ํ™•๋„P๊ฐ€ ๊ฑฐ์˜ 0)์œผ๋กœ ์ธก์ •๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” N-gram์—์„œ ์ „๋ฐ˜์ ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๋ฌธ์ œ์ด์ง€๋งŒ, n์˜ ๊ฐœ์ˆ˜๋ฅผ ๋†’์ผ์ˆ˜๋ก ๋”๋”์šฑ ์‹ฌํ•ด์ง‘๋‹ˆ๋‹ค. (๋Œ€๋ถ€๋ถ„์˜ ๋‹จ์–ด์˜ ํ™•๋ฅ ์ด 0์— ๊ฐ€๊น๊ฒŒ ๋ฉ๋‹ˆ๋‹ค)

 

์œ„์˜ 2๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ์Šค๋ฌด๋”ฉ(Smoothing)๊ณผ ๋ฐฑ์˜คํ”„(Backoff)๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์Šค๋ฌด๋”ฉ์€ ๋ฐœ์ƒ ํšŸ์ˆ˜๊ฐ€ 0์ด ๋˜์ง€ ์•Š๋„๋ก ๋‹จ์–ด์˜ ์ถœํ˜„ ๋นˆ๋„๋ฅผ ๋ณด์ •ํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๋ฐฑ์˜คํ”„๋Š” ํŠน์ • ๋‹จ์–ด์˜ ํ™•๋ฅ ์ด P = 0์ธ ๊ฒฝ์šฐ์—๋งŒ N-gram์—์„œ n๊ฐ’์„ ๋” ์ž‘๊ฒŒ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๋‹ค์–‘ํ•œ ์Šค๋ฌด๋”ฉ, ๋ฐฑ์˜คํ”„ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ๊ถ๊ธˆํ•œ ์นœ๊ตฌ๋“ค์„ ์œ„ํ•œ ๋งํฌ

 

Smoothing for Language Models - ML Wiki

Smoothing for Language Models It's a form of Regularization for Statistical Language Models Parameter Estimation Suppose $\theta$ is a Unigram Statistical Language Model so $\theta$ follows Multinomial Distribution $D$ is a document consisting of words: $D

mlwiki.org


# ํ•ด๊ฒฐ๋ฐฉ๋ฒ•

# Jelinek-Mercer Smoothing (์„ ํ˜•๋ณด๊ฐ„, linear interpolation)

์Šค๋ฌด๋”ฉ์€ ๋ฐœ์ƒ ํšŸ์ˆ˜๊ฐ€ 0์ด ๋˜์ง€ ์•Š๋„๋ก ๋‹จ์–ด์˜ ์ถœํ˜„๋นˆ๋„๋ฅผ ๋ณด์ •ํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

๊ทธ ์ค‘ JM ์Šค๋ฌด๋”ฉ์€ ์ ์ˆ˜๋ฅผ ํŠน์ • ๋น„์œจ๋กœ ๋‚˜๋ˆ ์„œ (ex 70% ์ ์ˆ˜ + 30% ๋ณด์ •๊ฐ’ ) ์ „์ฒด๋ฌธ์„œ(์ปฌ๋ ‰์…˜)์œผ๋กœ ๋งŒ๋“  ๋ณด์ •๊ฐ’์„ ๋”ํ•ด ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. JM ์Šค๋ฌด๋”ฉ์—์„œ๋Š” ๋ณด์ •๊ฐ’์„ ์ „์ฒด๋ฌธ์„œ(์ปฌ๋ ‰์…˜)์˜ ์–ธ์–ด๋ชจ๋ธ ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

* ์ฐธ๊ณ ๋กœ ๋ณดํ†ต ๋ณด์ •๊ฐ’์˜ ๋น„์œจ($ \lambda $)๋Š” ์งˆ์˜๋ฌธ(q)์˜ ๊ธธ์ด์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ์ ์šฉํ•œ๋‹ค. (์งง์„์ˆ˜๋ก ๋ณด์ •๊ฐ’์„ ๋‚ฎ๊ฒŒ)

 

์˜ˆ๋ฅผ ๋“ค์–ด ์ „์ฒด๋ฌธ์„œ์ง‘ํ•ฉ์ด ๋‹ค์Œ๊ณผ ๊ฐ™๊ณ , ๋ณด์ •๊ฐ’ ๋น„์œจ์ด 30%(0.3)์ด๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค๋ฉด

'๋ถ€์‚ฐ'์˜ ๋ณด์ •๊ฐ’ : $0.3 * \frac{124}{100,000}$

'๊ฒฝ์ œ'์˜ ๋ณด์ •๊ฐ’ : $0.3 * \frac{578}{100,000}$ ์ด ๋œ๋‹ค.

 

์—ฌ๊ธฐ์„œ ์ ์ˆ˜์™€ ๋ณด์ •๊ฐ’์˜ ๋น„์œจ์„ $ \lambda, 1- \lambda $ ๋ผ๊ณ  ์ ๊ณ  ์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ์–ด๋ ต๊ฒŒ ๋งํ•˜๋ฉด

๊ฐ ๋‹จ์–ด์˜ $P(q_i|D)$ =  ๊ฒ€์ƒ‰๋ฌธ์„œ D์— MLE ๋ฌธ์„œ๋ชจ๋ธ์„ ์ด์šฉํ•œ ๊ฐ€์ค‘์น˜ ์ ์ˆ˜

[๊ธฐ์กด์˜ ๊ฐ€์ค‘์น˜ ์ ์ˆ˜] = $(1- \lambda)$ * P( $q_i$ | D_MLE )

[์ปฌ๋ ‰์…˜ ๋ณด์ •๊ฐ’] = $ \lambda $ * P( $q_i$ | C _MLE )

์ด ๋‘˜์„ ๋”ํ•œ ๊ฐ’์„ ์ƒˆ๋กœ์šด ๊ฐ€์ค‘์น˜ ์ ์ˆ˜๋กœ ์‚ฌ์šฉํ•˜๊ณ , ๊ฐ ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜์ ์ˆ˜๋ฅผ ๊ณฑํ•˜๋ฉด ์งˆ์˜๋ฌธ Q์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜ ์ ์ˆ˜๊ฐ€ ๋‚˜์˜จ๋‹ค.

์ˆ˜์‹์œผ๋กœ ๋ณด๋ฉด ์–ด๋ ค์›Œ๋ณด์ด๋Š”๋ฐ, ์‹ค์ œ ๊ณ„์‚ฐ์€ ๊ฐ„๋‹จํ•˜๋‹ค

์ด๋ฅผ ์‹ค์ œ ์˜ˆ์ œ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Q = [๋ถ€์‚ฐ, ๊ฒฝ์ œ]

D = [๋ถ€์‚ฐ ์ž๊ฐˆ์น˜ ์‹œ์žฅ ๊ฒฝ์ œ ... ] ์ด๊ณ , ๋ฌธ์„œ์ง‘ํ•ฉ์€ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด

ํ™•๋ฅ ์— JM ์Šค๋ฌด๋”ฉ์„ ์ ์šฉํ•˜์˜€๋‹ค.


# log๋กœ ์‹์„ ๋ณ€ํ˜• (๊ณฑ์…ˆ -> ๋ง์…ˆ)

๋กœ๊ทธ๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ณฑ์…ˆ์„ ๋ง์…ˆ์œผ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ํ™•๋ฅ ๊ณฑ์ด 0์ด ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•œ๋‹ค.

๋ฌผ๋ก  ์ด๋ ‡๊ฒŒํ•˜๋ฉด ๊ฐ€์ค‘์น˜ ๊ฐ’์ด ๊ธฐ์กด๊ณผ ๋‹ฌ๋ผ์ง€๊ฒ ์ง€๋งŒ, log(a) < log(b) ์ธ ๊ฒฝ์šฐ a<b ๊ฐ€ ์„ฑ๋ฆฝํ•˜๋ฏ€๋กœ ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๋Š”๋ฐ๋Š” ์•„๋ฌด๋Ÿฐ ๋ฌธ์ œ๊ฐ€ ์—†๋‹ค.

์ฐธ๊ณ ๋กœ + 0.3 1/24.. ๋Š” JM์Šค๋ฌด๋”ฉ์„ ์ ์šฉํ•œ ๊ฐ’์ด๋‹ค.


# ์–ธ์–ด๋ชจ๋ธ์—์„œ IR๋ชจ๋ธ๋กœ ( TF, IDF, Length ์š”์†Œ )

๊ฒฐ๊ตญ IR๋ชจ๋ธ์€ ์งˆ์˜์™€ ๋ฌธ์„œ์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜(์ •ํ™•๋„)๋ฅผ ๊ตฌํ•˜๋Š” ์‹์„ ํ•˜๋‚˜ ๋งŒ๋“ค์–ด์•ผํ•œ๋‹ค.

๊ทธ๋ž˜์„œ ์œ„์—์„œ [Unigram ์–ธ์–ด๋ชจ๋ธ+JM์Šค๋ฌด๋”ฉ ๊ฐ’์„ (์ ์ˆ˜ + ๋ณด์ •๊ฐ’)] ์‹์„ ์ •๋ฆฌํ•ด์„œ ๊ณ„์‚ฐํ•˜๊ธฐ ํŽธํ•˜๊ฒŒ ํ•˜๋‚˜์˜ ์‹์œผ๋กœ ๋งŒ๋“ค์–ด๋ณด์ž.

์•ž์˜ ํ™•๋ฅ ๋ชจ๋ธ์—์„œ๋„ ๋ฐฐ์› ์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์ •๋ณด๊ฒ€์ƒ‰ ๋ชจ๋ธ์„ ๋งŒ๋“ค ๋•Œ, ์ œ๋Œ€๋กœ ๋™์ž‘ํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ ค๋ฉด ๋‹จ์–ด์˜ ๋นˆ๋„(TF)์™€ ๋‹จ์–ด์ถœํ˜„๋นˆ๋„(IDF), ๊ทธ๋ฆฌ๊ณ  ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ์˜ ๊ธธ์ด(Length)๊ฐ€ ๋ชจ๋ธ์— ๋ฐ˜์˜๋˜์–ด์•ผ ํ•œ๋‹ค.

 

์œ„์˜ JM ์Šค๋ฌด๋”ฉ์„ ์‚ฌ์šฉํ•œ ์–ธ์–ด๋ชจ๋ธ์€ ํ™•๋ฅ ๋ชจ๋ธ(BM25)์™€ ๋‹ค๋ฅด๊ฒŒ ๋ณ„๋„์˜ ๊ฐ’์„ ์ถ”๊ฐ€ ํ•  ํ•„์š” ์—†์ด, ์ด๋ฏธ ๋ณด์ •๊ฐ’์„ ํ†ตํ•ด TF, Length, IDF๊ฐ€ ์ ์šฉ ๋˜์—ˆ์œผ๋ฏ€๋กœ ํ•ด๋‹น ์š”์†Œ๋ฅผ ๋‹ค๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ ๊ทธ๋ƒฅ JM ์Šค๋ฌด๋”ฉ์„ JMํ™•๋ฅ ๋ชจ๋ธ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ๋‹ค๋Š”๊ฒƒ์„ ์œ ์˜ํ•˜์ž.


# ๋””๋ฆฌํด๋ ˆ ์Šค๋ฌด๋”ฉ(dirichlet smothing)

์œ„์—์„œ๋Š” ๊ฐ„๋‹จํ•œ JM์Šค๋ฌด๋”ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ์„ ํ–ˆ์ง€๋งŒ, ์Šค๋ฌด๋”ฉ ๋ฐฉ๋ฒ•์—๋Š” ์—ฌ๋Ÿฌ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค.

JM์Šค๋ฌด๋”ฉ๋ณด๋‹ค ํšจ๊ณผ๊ฐ€ ์ข‹์€ ๋ฐฉ๋ฒ•์œผ๋กœ ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•œ '๋””๋ฆฌํด๋ ˆ ์Šค๋ฌด๋”ฉ'์ด๋ผ๋Š” ๊ฒƒ์ด ์žˆ๋‹ค.

๋””๋ฆฌํด๋ ˆ ์Šค๋ฌด๋”ฉ์—์„œ๋Š” ๋ณด์ •๊ฐ’ ๋น„์œจ์„ ๋ฌธ์„œ๊ธธ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ๋ณ€์ˆ˜( $\mu ,๋ฎค$ )๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

TREC ๊ณ„์‚ฐ์„ ํ•ด๋ณด๋‹ˆ ๋ณ€์ˆ˜(m)์˜ ๊ฐ’์€ 1000~2000์ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ํ•œ๋‹ค.

 

์—ฌ๊ธฐ์—์„œ ' ์™œ ์ €๋Ÿฐ๋ชจ์–‘์œผ๋กœ ์ˆ˜์‹์ด ๋ณ€ํ˜•๋˜์—ˆ๋Š”๊ฐ€? ' ์˜ ์œ ๋„๊ณผ์ •์€ ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ๋ฅผ ๊ณต๋ถ€ํ•ด์•ผํ•˜๋‹ˆ, ์ผ๋‹จ ๋„˜์–ด๊ฐ€๋„๋ก ํ•˜์ž. ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ๋ฅผ ์ด์šฉํ•œ ์ˆ˜์‹์—์„œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์„ฑ๋Šฅ์„ ์ข‹๊ฒŒํ•˜๊ณ  ๊ณฑ์…ˆ์„ ๋ง์…ˆ์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด log๋ฅผ ์ทจํ•œ๋‹ค.

(* ์งˆ์˜๋ฌธ์—์„œ ๊ฐ™์€ ๋‹จ์–ด๊ฐ€ ์—ฌ๋Ÿฌ๋ฒˆ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์Œ์„ ์œ ์˜ํ•˜์ž. ๋‹จ์–ด๊ฐ€ ๊ฐ™๋‹ค๊ณ  ๊ณ„์‚ฐ์„ ์ƒ๋žตํ•˜๋ฉด ์•ˆ๋œ๋‹ค.)

์ด๋„ JM๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๋””๋ฆฌํด๋ ˆ ์Šค๋ฌด๋”ฉ์ด ์•„๋‹Œ ๋””๋ฆฌํด๋ ˆ ์–ธ์–ด๋ชจ๋ธ์ด๋ผ๊ณ  ๋ถ€๋ฅผ ์ˆ˜๋„ ์žˆ๋‹ค.


# ๊ทผ๋ฐ ๋ณ€ํ˜•ํ•œ ์ˆ˜์‹์˜ ํ™•๋ฅ ์˜ ํ•ฉ์ด 1(100%)๊ฐ€ ๋˜๋‚˜์š”?

์–ธ์–ด๋ชจ๋ธ์—์„œ์˜ ๊ฐ€์ค‘์น˜๋Š” ์ „์ฒด๋ฅผ 1(100%)๋กœ ๋ณด๊ณ  ๊ฐ ๋‹จ์–ด๋งˆ๋‹ค ํ™•๋ฅ (ex 0.0003)์„ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ํ–ˆ๋‹ค.

์ˆ˜์‹์„ ๋งŽ์ด ๋ณ€ํ˜•์‹œ์ผœ์„œ ๊ทธ๋ ‡๊ฒŒ ์•ˆ๋ณด์ผ์ˆ˜๋„ ์žˆ๋Š”๋ฐ, ์ง์ ‘ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด ๋””๋ฆฌํด๋ž˜, JM ๋‘˜๋‹ค ํ™•๋ฅ ๋“ค์˜ ํ•ฉ์ด 1์ด ๋‚˜์˜จ๋‹ค.

์ง์ ‘ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด ์ „์ฒด ํ™•๋ฅ ์ด 1์ธ๊ฑด ๋ณ€ํ•˜์ง€ ์•Š์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 



# ํ€ด์ฆˆ

1. ๋‹ค์Œ์€ ๋ฌธ์„œ์ง‘ํ•ฉ(์ปฌ๋ ‰์…˜, Collection)๊ณผ ์งˆ์˜(Query)๋ฅผ ๋ณด์ธ ๊ฒƒ์ด๋‹ค.

Q = [ํ•œ๊ตญ, ๋Œ€์„ ]

D1 = [ํ•œ๊ตญ, ํ•œ๊ตญ, ๋ฏธ๊ตญ, ๋Œ€์„ , ๋Œ€์„ , ๋Œ€์„ , ๋Œ€ํ†ต๋ น]

D2 = [ํ•œ๊ตญ, ํ•œ๊ตญ, ๋Œ€์„ , ๋ฏธ๋ž˜, ์„ ๊ฑฐ]

D3 = [๋ฏผ์ฃผ๋‹น, ํ•œ๋‚˜๋ผ๋‹น, ๋Œ€์„ , ๋Œ€ํ†ต๋ น, ์„ ๊ฑฐ]

D4 = [๋ฏธ๊ตญ, ๋Œ€์„ , ๋Œ€์„ , ํ•œ๊ตญ, ๋Œ€ํ†ต๋ น]

D5 = [๋ฏธ๊ตญ, ๋Œ€ํ†ต๋ น]

 

1-1 log P(Q| D3_JM ) ์˜ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค (๋‹จ $\lambda = 0.3$)

ํ’€์ด

๋”๋ณด๊ธฐ

IR์€ ์งˆ์˜๋ฌธ(Q)๊ณผ ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ(D_i)์˜ ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ๊ตฌํ•ด์„œ ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๋Š” ์ž‘์—…์ด๋‹ค.

์ฆ‰ ์งˆ์˜๋ฌธ์˜ ๊ฐ ๋‹จ์–ด { ํ•œ๊ตญ, ๋Œ€์„  } ๋ฅผ ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ D3์— ๋Œ€ํ•ด ๊ฐ๊ฐ JM๋ชจ๋ธ์„ ์ ์šฉํ•œ ๊ฐ€์ค‘์น˜ ์ˆ˜์‹์„ ๊ณ„์‚ฐํ•˜๋ฉด ๋œ๋‹ค.

 

์ด ๋•Œ JM ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋น„์œจ($\lambda$)๊ฐ’์ด 0.3์ด๋ผ๊ณ  ํ–ˆ์œผ๋ฏ€๋กœ ์งˆ์˜๋ฌธ i๋ฒˆ์งธ ๋‹จ์–ด๋ฅผ $q_i$ ๋ผ๊ณ  ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด

๊ฐ€์ค‘์น˜์ ์ˆ˜ P(Q|D3 JM)์€

๊ฐ ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜: $0.7 * \frac{q_i ์ถœํ˜„ํšŸ์ˆ˜}{D3์˜ ์ „์ฒด ๋‹จ์–ด ๊ฐœ์ˆ˜}$ + $0.3 * \frac{์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ์—์„œ q_i ์ถœํ˜„ํšŸ์ˆ˜}{์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ ๋‹จ์–ด ๊ฐœ์ˆ˜}$ ๋ฅผ ๊ตฌํ•ด์„œ ๊ณฑํ•˜๋ฉด ๋œ๋‹ค.

์ฐธ๊ณ ๋กœ D3์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์—†๋”๋ผ๋„ MLE ํ…Œ์ด๋ธ”(๊ฐ ๋‹จ์–ด์˜ ํ™•๋ฅ ๊ฐ’) ์ด ์ฃผ์–ด์ง„๋‹ค๋ฉด ๋˜‘๊ฐ™์ด ๊ณ„์‚ฐ ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ฐธ๊ณ ๋กœ ์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ(C)์˜ ๋‹จ์–ด ๊ฐœ์ˆ˜๋Š” ์ด 24๊ฐœ์ด๋‹ค (์ง์ ‘ ์„ธ๋ณด๋ฉด ๋œ๋‹ค)

์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ์—์„œ ํ•œ๊ตญ์€ 5๋ฒˆ, ๋Œ€์„ ์€ 7๋ฒˆ ๋‚˜์™”๋‹ค.

P(ํ•œ๊ตญ|D3_JM) = P(ํ•œ๊ตญ| D3_JM) = $(0.7  * \frac{0}{5}$) + $(0.3 * \frac{5}{24}$

P(ํ•œ๊ตญ|D3_JM) = P(๋Œ€์„ | D3_JM) = $(0.7  * \frac{1}{5}$) + $(0.3 * \frac{7}{24}$

 

๊ฐ€์ค‘์น˜๋Š” ๊ฐ ๋‹จ์–ด๋“ค์˜ ๊ฐ€์ค‘์น˜์˜ ๊ณฑ, ์ฆ‰ $P(ํ•œ๊ตญ) * P(๋Œ€์„ )$ ์ธ๋ฐ, ์ด ๊ฐ’์— log๋ฅผ ์”Œ์›Œ๋ผ๊ณ  ํ–ˆ์œผ๋‹ˆ\

log $P(ํ•œ๊ตญ) * P(๋Œ€์„ )$ ์ด๊ณ  ๋กœ๊ทธ์˜ ์„ฑ์งˆ์— ์˜ํ•ด ๋ง์…ˆ์œผ๋กœ ๋ฐ”๋€Œ๊ฒŒ ๋œ๋‹ค.

์ •๋‹ต = log $(0.7  * \frac{0}{5}$) * $(0.3 * \frac{5}{24}$ + log $(0.7  * \frac{1}{5})$ * $(0.3 * \frac{7}{24})$

์ฐธ๊ณ ๋กœ ์ด๋ ‡๊ฒŒ ๊ฐ ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋”ํ•˜์ง€ ์•Š๊ณ  ๋‹จ์–ด๋ณ„ ํ‘œ๋กœ๋งŒ๋“ค๋ฉด, ๊ทธ๊ฒŒ JM ์–ธ์–ด๋ชจ๋ธ (D_JM)์ด๋‹ค.

 

 

1-2 log P(Q| D3_Dirichlet ) ์˜ ์ˆ˜์‹์„ ์ ์œผ์‹œ์˜ค (๋‹จ $\mu = 2000$)

ํ’€์ด

๋”๋ณด๊ธฐ

JM๊ณผ ๋น„์Šทํ•˜๋‹ค. ์˜คํžˆ๋ ค ๊ณ„์‚ฐ์€ ๋” ๊ฐ„๋‹จํ•˜๋‹ค.

JM์—์„œ ๊ตฌํ•œ ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์˜ฎ๊ธฐ๋ฉด ๋œ๋‹ค.

1-1๋ฒˆ ๋ฌธ์ œ์—์„œ JM์—์„œ ๊ตฌํ•œ ์‹์„ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๋ฉด

= log ($\frac{0+\mu* \frac{5}{24}}{5+\mu})$ + log $(\frac{1+\mu*\frac{7}{24}}{5+\mu})$

$\mu$์˜ ๊ฐ’์ด 2000์ด๋ผ๊ณ  ํ–ˆ์œผ๋ฏ€๋กœ

= log $(\frac{0+2000 * \frac{5}{24}}{5+2000})$ + log $(\frac{1+2000*\frac{7}{24}}{5+2000})$

 

์ฐธ๊ณ ๋กœ ์ˆ˜์‹์„ ์ ์œผ๋ผ๋Š” ๋ฌธ์ œ๊ฐ€ ์•„๋‹Œ, ์–ธ์–ด๋ชจ๋ธ (๋‹จ์–ด๋งˆ๋‹ค์˜ ํ™•๋ฅ  ํ‘œ)๋ฅผ ๋งŒ๋“ค๋ผ ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ ์œผ๋ฉด ๋œ๋‹ค.

 

๋ธ”๋กœ๊ทธ์˜ ์ •๋ณด

JiwonDev

JiwonDev

ํ™œ๋™ํ•˜๊ธฐ