JiwonDev

# ๋ณต์Šต : ์ •๋ณด๊ฒ€์ƒ‰ ์—ฐ์Šต๋ฌธ์ œ

by JiwonDev

# TF, IDF ๊ธฐ์ดˆ

๋‹ค์Œ ์ „์ฒด๋ฌธ์„œ์ง‘๋‹ต C={D1,D2}์— ๋Œ€ํ•ด ์•„๋ž˜ ์งˆ๋ฌธ๋“ค์— ๋‹ตํ•˜์‹œ์˜ค. ๋ฌธ์„œ๋Š” ์ƒ‰์ธ ์šฉ์–ด๋“ค์˜ ๋‚˜์—ด๋กœ ํ‘œํ˜„๋˜์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค. D1={ ๋ฏธ๊ตญ, ๋ฏธ๊ตญ ์ผ๋ณธ } , D2={ํ•œ๊ตญ, ์ผ๋ณธ}

 

1. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด tf(์ผ๋ณธ,D1)์€ ์–ผ๋งˆ์ธ๊ฐ€?

2. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด tf(๋ฏธ๊ตญ,D1)์€ ์–ผ๋งˆ์ธ๊ฐ€?

3. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด df(ํ•œ๊ตญ)์€ ์–ผ๋งˆ์ธ๊ฐ€?

4. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด df(์ผ๋ณธ)์€ ์–ผ๋งˆ์ธ๊ฐ€?

5. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด cf(์ผ๋ณธ)์€ ์–ผ๋งˆ์ธ๊ฐ€?

6. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ์ƒ‰์ธ ์šฉ์–ด 'ํ•œ๊ตญ'์— ๋Œ€ํ•œ ํฌ์ŠคํŒ… ๋ฆฌ์ŠคํŠธ๋ฅผ ์ ์œผ์‹œ์˜ค.

7. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ์ƒ‰์ธ ์šฉ์–ด '์ผ๋ณธ'์— ๋Œ€ํ•œ ํฌ์ŠคํŒ… ๋ฆฌ์ŠคํŠธ๋ฅผ ์ ์œผ์‹œ์˜ค.

8. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ์šฉ์„œ t์˜ idf(t)๋ฅผ $\frac{N}{df(t)}$๋กœ ๊ณ„์‚ฐํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, N์˜ ๊ฐ’์€?

9. ์œ„ ๋ฌธ์„œ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ์šฉ์„œ t์˜ idf(t)๋ฅผ $\frac{N}{df(t)}$๋กœ ๊ณ„์‚ฐํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, idf(ํ•œ๊ตญ)์˜ ๊ฐ’์€?

 

ํ’€์ด

๋”๋ณด๊ธฐ

์ „์ฒด ๋ฌธ์„œ์ง‘ํ•ฉ C = {D1, D2}

D1={ ๋ฏธ๊ตญ, ๋ฏธ๊ตญ ์ผ๋ณธ } , D2={ํ•œ๊ตญ, ์ผ๋ณธ}

 

$tf( t ,D_i)$๋Š” ํ•ด๋‹น ๋ฌธ์„œ$D_i$์—์„œ ์งˆ์˜ ๋‹จ์–ด(t)์˜ ์ถœํ˜„ ๋นˆ๋„๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

1. tf(์ผ๋ณธ,D1) = 1 (D1์—๋Š” '์ผ๋ณธ'์ด 1๋ฒˆ ์‚ฌ์šฉ๋จ.)

2. tf(๋ฏธ๊ตญ,D1) = 2 (D1์—๋Š” '๋ฏธ๊ตญ'์ด 2๋ฒˆ ์‚ฌ์šฉ๋จ.)

 

$df( t )$๋Š” t๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๋‹จ์–ด t์˜ ๊ฐœ์ˆ˜๊ฐ€ ์•„๋‹˜์„ ์œ ์˜ํ•˜์ž.

3. df(ํ•œ๊ตญ) = 1 (D1)

4. df(์ผ๋ณธ) = 2 (D1,D2)

 

$cf( t )$ ๋Š” collection-f๋กœ ์ „์ฒด ๋ฌธ์„œ ์ง‘ํ•ฉ์„ ํ•˜๋‚˜์˜ ๋ฌธ์„œ๋กœ ๋ณผ ๋•Œ์˜ df๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ฆ‰ ๋‹จ์–ด๊ฐ€ ๋‚˜์˜จ ํšŸ์ˆ˜.

5. cf(์ผ๋ณธ) = 2 ('์ผ๋ณธ' ์ „์ฒด๋ฌธ์„œ์ง‘ํ•ฉ {D1, D2} ์—์„œ ์ด 2๋ฒˆ ์ถœํ˜„ํ•˜์˜€๋‹ค.)

 

ํฌ์ŠคํŒ…๋ฆฌ์ŠคํŠธ๋ž€ ๋ฌธ์„œ๋ฅผ ์ธ๋ฑ์‹ฑํ•œ ๊ฒƒ, ์ฆ‰ ํŠน์ • ๋‹จ์–ด์— ๋Œ€ํ•ด์„œ ๊ทธ ๋‹จ์–ด๊ฐ€ ์‚ฌ์šฉ๋œ ๋ฌธ์„œ๋“ค์˜ ๋ชฉ๋ก์„ ์˜๋ฏธํ•œ๋‹ค. 

6. 'ํ•œ๊ตญ' ํฌ์ŠคํŒ…๋ฆฌ์ŠคํŠธ = [D2]

7. '์ผ๋ณธ' ํฌ์ŠคํŒ…๋ฆฌ์ŠคํŠธ = [D1, D2]

 

idf ๋Š” df์˜ ๊ฐ’์„ ์ „์ฒด ๋ฌธ์„œ ๊ฐœ์ˆ˜(N)์œผ๋กœ ๋‚˜๋ˆˆ ๊ฐ’์ด๋‹ค. ๋ฌธ์„œ์˜ ๊ธธ์ด๊ฐ€ ์•„๋‹˜์„ ์œ ์˜ํ•˜์ž.

8. 2

9. $idf(t) = \frac{N}{df(t)}$ ์ˆ˜์‹์„ ์‚ฌ์šฉํ•œ๋‹ค ํ–ˆ์œผ๋ฏ€๋กœ idf(ํ•œ๊ตญ) = $\frac{2}{1}$ = 2

 

# ๊ฒ€์ƒ‰๋ชจ๋ธ ์„ฑ๋Šฅํ‰๊ฐ€, ์ •ํ™•๋ฅ ๊ณผ ์žฌํ˜„์œจ, ํ™•๋ฅ ๋ชจ๋ธ

10. ๋‹ค์Œ ์–ด์ ˆ๋“ค๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋˜๋Š” ์Œ์ ˆ 2-gram์„ ๊ฐ๊ฐ ๋ชจ๋‘ ์ ์œผ์‹œ์˜ค

{ ๋ถ€์‚ฐ, ๋Œ€ํ•œ๋ฏผ๊ตญ }

 

11. ์ ํ•ฉ๋ฌธ์„œ์˜ ์ด ๊ฐœ์ˆ˜๊ฐ€ 10๊ฐœ์ธ ์งˆ์˜ Q์— ๋Œ€ํ•ด 8๊ฐœ์˜ ๋ฌธ์„œ๊ฐ€ ๊ฒ€์ƒ‰๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ค‘ 8๊ฐœ์˜ ์ ํ•ฉ๋ฌธ์„œ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ์งˆ์˜ Q์— ๋Œ€ํ•œ ์ •ํ™•๋ฅ ์€ ์–ผ๋งˆ์ธ๊ฐ€?

 

12. ์ ํ•ฉ๋ฌธ์„œ์˜ ์ด ๊ฐœ์ˆ˜๊ฐ€ 8๊ฐœ์ธ ์งˆ์˜ Q์— ๋Œ€ํ•ด 10๊ฐœ์˜ ๋ฌธ์„œ๊ฐ€ ๊ฒ€์ƒ‰๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ค‘ 8๊ฐœ์˜ ์ ํ•ฉ๋ฌธ์„œ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ์งˆ์˜ Q์— ๋Œ€ํ•œ ์žฌํ˜„์œจ์€ ์–ผ๋งˆ์ธ๊ฐ€?

 

13. ์ ํ•ฉ๋ฌธ์„œ์˜ ์ด ๊ฐœ์ˆ˜๊ฐ€ 5๊ฐœ์ธ ์งˆ์˜ Q์— ๋Œ€ํ•ด 7๊ฐœ์˜ ๋ฌธ์„œ๊ฐ€ ๊ฒ€์ƒ‰๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ค‘ 3๊ฐœ์˜ ์ ํ•ฉ๋ฌธ์„œ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ์งˆ์˜ Q์— ๋Œ€ํ•œ F1์€ ์–ผ๋งˆ์ธ๊ฐ€?

 

14. ์ ํ•ฉ๋ฌธ์„œ์˜ ์ด ๊ฐœ์ˆ˜๊ฐ€ 20๊ฐœ์ธ ์งˆ์˜ Q์— ๋Œ€ํ•ด 10๊ฐœ์˜ ๋ฌธ์„œ๊ฐ€ ๊ฒ€์ƒ‰๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ค‘ 10๊ฐœ์˜ ์ ํ•ฉ๋ฌธ์„œ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ์งˆ์˜ Q์— ๋Œ€ํ•œ Pre@10์€ ์–ผ๋งˆ์ธ๊ฐ€?

 

15. ์ ํ•ฉ๋ฌธ์„œ์˜ ์ด ๊ฐœ์ˆ˜๊ฐ€ 5๊ฐœ์ธ ์งˆ์˜ Q์— ๋Œ€ํ•ด 5๊ฐœ์˜ ๋ฌธ์„œ๊ฐ€ ๊ฒ€์ƒ‰๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ค‘ 5๊ฐœ์˜ ์ ํ•ฉ๋ฌธ์„œ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ์งˆ์˜ Q์— ๋Œ€ํ•œ R-precision์€ ์–ผ๋งˆ์ธ๊ฐ€?

 

16. ๋ฌธ์„œ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๋Š” 100์ด๊ณ , $df(ํ•œ๊ตญ)=5$, $df(๋ฏธ๊ตญ)=3$, $df(์ผ๋ณธ)=6$ ์ด๋ผ๊ณ  ํ•  ๋•Œ, ์งˆ์˜ Q=[ํ•œ๊ตญ,๋ฏธ๊ตญ],  ๋ฌธ์„œ D=[ํ•œ๊ตญ,์ผ๋ณธ]์— ๋Œ€ํ•ด ์•„๋ž˜ ์ˆ˜์‹์— ๋”ฐ๋ฅธ Q์™€ D์˜ ์œ ์‚ฌ๋„๋ฅผ ์ ์œผ์‹œ์˜ค.

ํ’€์ด

๋”๋ณด๊ธฐ

์Œ์ ˆ N-Gram์€ ๋ง ๊ทธ๋Œ€๋กœ n๊ฐœ์˜ ์Œ์ ˆ ๋‹จ์œ„๋กœ ๋Š์–ด ์ฝ๋Š” ๋ฐฉ์‹์ด๋‹ค.

์ฐธ๊ณ ๋กœ ์˜๋ฏธ ์žˆ๋Š” ๋‹จ์–ด ๋‹จ์œ„๋กœ ๋Š์–ด์ฝ๋Š”๊ฑด Unigram ์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

10. ๋ถ€์‚ฐ = { ๋ถ€์‚ฐ } , ๋Œ€ํ•œ๋ฏผ๊ตญ = {๋Œ€ํ•œ, ํ•œ๋ฏผ, ๋ฏผ๊ตญ}

 

์ •ํ™•๋ฅ ์€ ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ค‘์— ์ ํ•ฉ๋ฌธ์„œ์˜ ๋น„์œจ, ์ฆ‰ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ฒŒ ๊ฒ€์ƒ‰๋˜์—ˆ๋Š”์ง€์— ๋Œ€ํ•œ ๋น„์œจ์ด๋‹ค.

11. ๋ฌธ์„œ 8๊ฐœ ๊ฒ€์ƒ‰, ๊ทธ ์ค‘ 8๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ด๋ฏ€๋กœ

$\frac{์ ํ•ฉ๋ฌธ์„œ ์ˆ˜}{๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ˆ˜}$ = 8/8 = 1

 

์žฌํ˜„์œจ์€ ์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ์ค‘์—์„œ ๋ช‡ ๊ฐœ์˜ ์ ํ•ฉ๋ฌธ์„œ๋ฅผ ์ฐพ์•˜๋Š”์ง€์— ๋Œ€ํ•œ ๋น„์œจ, ์ฆ‰ ์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ ์žฌํ˜„ ๋น„์œจ์ด๋‹ค.

12. ๋ฌธ์„œ 10๊ฐœ ๊ฒ€์ƒ‰, 8๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ธ๋ฐ ์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜๋„ 8๊ฐœ์ด๋ฏ€๋กœ

$\frac{์ ํ•ฉ๋ฌธ์„œ ์ˆ˜}{์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ ์ˆ˜}$ = 8/8 = 1

 

F1์€ F ์ง€ํ‘œ (์กฐํ™”ํ‰๊ท ) ๊ฐ’์—์„œ ์ •ํ™•๋ฅ , ์žฌํ˜„์œจ์— ๊ฐ๊ฐ ๊ฐ€์ค‘์น˜๋ฅผ 50%์”ฉ ์ฃผ์—ˆ์„ ๋•Œ์˜ ๊ฐ’์ด๋‹ค.

F ์ง€ํ‘œ(=์กฐํ™”ํ‰๊ท )์„ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ a, b๊ฐ€ ์žˆ์„ ๋•Œ F1 = $\frac{2* a * b}{ a + b}$ ์ด๋‹ค.

์กฐํ™”ํ‰๊ท ์„ ๊ตฌํ•˜๋Š” ๊ณต์‹์ด ๊ธฐ์–ต์ด ์•ˆ๋‚œ๋‹ค๋ฉด ๋‹ค์Œ ๋งํฌ๋ฅผ ์ฐธ์กฐํ•˜์ž. https://jiwondev.tistory.com/51#head4

 

13. ๋ฌธ์„œ 7๊ฐœ๋ฅผ ๊ฒ€์ƒ‰๊ฒฐ๊ณผ๋กœ ๋ฐ›์•˜๋Š”๋ฐ 3๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ด๋‹ค. (์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ๋Š” 5๊ฐœ์ด๋‹ค)

P = 3/7

R = 3/5

F1 = $ \frac{2 * P * R}{P + R}$ = $ \frac{2 * \frac{3}{7} * \frac{3}{5}}{\frac{3}{7} + \frac{3}{5}}$

 

Pre@10 ๋Š” 10์ˆœ์œ„ ์ง€์ ์—์„œ์˜ ์ •ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

14. ๋ฌธ์„œ 10๊ฐœ๋ฅผ ๊ฒ€์ƒ‰๊ฒฐ๊ณผ๋กœ ๋ฐ›์•˜๋Š”๋ฐ ๊ทธ์ค‘ 10๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ด๋‹ค. (์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ๋Š” 10๊ฐœ์ด๋‹ค)

10์ˆœ์œ„ ์ง€์ ์ด๋ž€ ๊ฒ€์ƒ‰ ์ˆœ์œ„๋Œ€๋กœ ์ •๋ ฌํ•˜์˜€์„ ๋•Œ 10๊ฐœ๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ์˜ ์ •ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

์ฆ‰ ( ${rank1 = D1, rank2 = D2, \dots rank10 = D10}$ ), 10๊ฐœ ์ค‘ 10๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ ์ด๋ฏ€๋กœ

10/10 = 1 

 

R-precision์€ pre@k ์™€ ๋น„์Šทํ•œ๋ฐ, (์ด ์ ํ•ฉ๋ฌธ์„œ ์ˆ˜ ==  ๋ฌธ์„œ์ง‘ํ•ฉ ๊ฐœ์ˆ˜) ์ธ pre@k๋ฅผ ์‚ฌ์šฉํ•จ์„ ์˜๋ฏธํ•œ๋‹ค.  

pre@k์™€ ๊ฐ™์•„๋ณด์—ฌ๋„ pre@k ๋Š” ๊ฐ’์ด ๊ณ ์ •๋˜์–ด์žˆ์ง€๋งŒ R-pre์€ ์งˆ์˜๋ฌธ์˜ ์ด ์ ํ•ฉ๋ฌธ์„œ ์ˆ˜์— ๋”ฐ๋ผ k๊ฐ€ ๋‹ฌ๋ผ์ง์„ ์œ ์˜ํ•˜์ž.

15. 5๊ฐœ๊ฐ€ ๊ฒ€์ƒ‰๋˜์—ˆ๋Š”๋ฐ, ๊ทธ ์ค‘ 5๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ด๋‹ค (์ „์ฒด ์ ํ•ฉ๋ฌธ์„œ๋Š” 5๊ฐœ์ด๋‹ค)

ํ•ด๋‹น ์งˆ์˜์—์„œ ์ด ์ ํ•ฉ๋ฌธ์„œ์˜ ์ˆ˜๋Š” 5๊ฐœ์ด๋ฏ€๋กœ pre@5๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋œ๋‹ค.

5๊ฐœ์ค‘ 5๊ฐœ๊ฐ€ ์ ํ•ฉ๋ฌธ์„œ์ด๋ฏ€๋กœ 5/5 = 1

 

์ฐธ๊ณ ๋กœ ํ•ด๋‹น ์ˆ˜์‹์€ ํ™•๋ฅ ๋ชจ๋ธ(์ด์ง„๋ฐ์ดํ„ฐ ๋ชจํ˜•, BIM ์‚ฌ์šฉ) ์—์„œ ์ ํ•ฉ/๋น„์ ํ•ฉ ์ถœํ˜„์ •๋ณด๊ฐ€ ์—†์„ ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์ˆ˜์‹์ด๋‹ค.

16. ๋ฌธ์„œ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๊ฐ€ 100, $df(ํ•œ๊ตญ)=5$, $df(๋ฏธ๊ตญ)=3$, $df(์ผ๋ณธ)=6$ 

Q=[ํ•œ๊ตญ,๋ฏธ๊ตญ],  ๋ฌธ์„œ D=[ํ•œ๊ตญ,์ผ๋ณธ]

N์€ ์ „์ฒด ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜, $n_i$ ๋Š” i๋ฒˆ์งธ ๋‹จ์–ด๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

Q=[ํ•œ๊ตญ,๋ฏธ๊ตญ] ์ด๋ฏ€๋กœ ํ•ด๋‹น ๋ฌธ์„œD ์— ์ถœํ˜„ํ•˜๋Š” ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ ์„ ๊ตฌํ•˜์—ฌ ๋”ํ•ด์ฃผ๋ฉด Sim (Q,D)๊ฐ€ ๋œ๋‹ค.

'ํ•œ๊ตญ' = $log \frac{N-n_ํ•œ}{n_ํ•œ}$  =  $ log \frac{100-5}{5} $

'๋ฏธ๊ตญ' = $log \frac{N-n_๋ฏธ}{n_๋ฏธ}$  =  $ log \frac{100-3}{3} $

ํ•˜์ง€๋งŒ, '๋ฏธ๊ตญ'์€ ๋ฌธ์„œ D์— ์ถœํ˜„ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ํ™•๋ฅ ์— ํฌํ•จ๋˜์ง€ ์•Š์Œ์„ ์œ ์˜ํ•˜์ž. 

์ •๋‹ต = D[ํ•œ๊ตญ,์ผ๋ณธ] = ํ•œ๊ตญ $ log \frac{100-5}{5} $ + ์ผ๋ณธ 0 (์งˆ์˜๋ฌธ์— ๋‚˜์˜ค์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ ์œ ์‚ฌ๋„๊ฐ’์€ 0์ด๋‹ค.)

= $ log \frac{100-5}{5} $

 

๋ธ”๋กœ๊ทธ์˜ ์ •๋ณด

JiwonDev

JiwonDev

ํ™œ๋™ํ•˜๊ธฐ