# ์ ๋ณด๊ฒ์ ํ๊ณ
by JiwonDev1. ์ ๋ณด๊ฒ์๊ณผ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฐจ์ด์
2. ์์ฐ์ด ๊ฒ์ ์์คํ ์ ๋์์ด ๋ค์์ด ๋ฌธ์
3. ์ ํฉ์ฑ ํ๋จ์ ๊ธฐ์ค, ํ๋จํ๊ธฐ ์ด๋ ค์ด ์ฌ๋ก
4. IR ์์คํ ์ ํฐ ๊ทธ๋ฆผ
์์ธ๋ชจ๋, ์ญํ์ผ ์์ธ(ํฌ์คํ ๋ฆฌ์คํธ), ๊ฒ์๋ชจ๋
5. ์ง์ ๋ฌธ์ ์ ์ฌ๋ ๊ณ์ฐ (TF, IDF, CF)
6. ์ง์ ๋ฌธ์ ์ ์ฌ๋ ์์ ( TF-IDF / Length(D) )
7. ์์ธ ๋จ์ (2-gram)
ํ๊ตญ์ด๋ ํํ์ ๋ถ์ ๊ฐ์ ๊ฒ์ด ์์ด๋ 2-gram์ด ๋น์ทํ ๋์์ ํ๋ค.
8. ์์ธ ์ ์ฐจ
์์ด -> [๋ถ์ฉ์ด ์ ๊ฑฐ, ์ด๊ฐ์์ฑ(stemming)]์ด ๊ฐ์ฅ ์ค์ํ ์ ์ฐจ.
9. ์์ด์์ ์คํ๋ฐ๊ณผ n-gram ํจ๊ณผ
์์ด์์๋ ๋ฌธ์๋จ์ 4,5-gram์ด ์์ธ๋ก ํจ๊ณผ๊ฐ ์๋ค. (์คํ๋ฐ์ ๋จ์ด ๋จ์)
10. ๋ฌธ์์ ํํ
๋จ์ด ๋ณด์๊ธฐ(a bog of words) ๋ฌธ์ํํ
์ ๋ณด๊ฒ์์ ๋ํ์ ์ธ ๋ฌธ์ํํ ๋ฐฉ์
11. ์ ๋ณด๊ฒ์๋ชจ๋ธ 4๊ฐ์ง
๋ถ๋ฆฐ, ๋ฒกํฐ๊ณต๊ฐ, ํ๋ฅ , ์ธ์ด
12. ๋ฒกํฐ๊ณต๊ฐ๋ชจ๋ธ
BIM (๋ฐ์ด๋๋ฆฌ ์ธ๋ํ๋์ค ๋ชจ๋ธ) -> ์ด์ง ๋ฒกํฐ๋ก ํด์, ์ฝ์ฌ์ธ ์ ์ฌ๋
13. ์ด์ง๋ฒกํฐํํ, TF๋ฒกํฐํํ, TF-IDF ๋ฒกํฐํํ
14. SMART ๋ฒกํฐ๊ณต๊ฐ๋ชจ๋ธ (ํ ์ด๋ธ์ ์ธ์ธ ํ์๋ ์์ด์)
lnc.ltc, bnn.bnn๋ฑ
15. ์ ๋ณด๊ฒ์ํ๊ฐ(Evaluation)
์ ํ๋ฅ (P) ์ฌํ๋ฅ (R) F1(์กฐํํ๊ท ๋ฐ๋ฐ์นํจ) 2PR/P+R
16. PRC ๊ทธ๋ํ์ ํ๋ฅผ ์ด์ฉํ ํ๊ฐ๋ฐฉ๋ฒ
- Pre@k, R-pre, MAP, NDCG
17. ํ์ด์ฌ
IR_00_split (์ด์ ๋จ์)
#1. ํ์ด์ฌ ์ค์น
#- https://www.python.org/ => ๋ค์ด๋ก๋ ํ ์ค์น(์ค์น ์ฒซ ํ๋ฉด์์ PATH ๋ฑ๋ก ์ ํํ ๊ฒ)
#2. nltk ํจํค์ง ์ค์น
#- ๋ช
๋ นํ๋กฌํํธ ์คํ ํ ๋ค์ ๋ช
๋ น ์
๋ ฅํ์ฌ nltk ์ค์น (์ฐธ์กฐ: https://pypi.org/project/nltk/)
#pip install nltk
#3. ๋ค์ ์ฝ๋๋ฅผ test.py ํ์ผ๋ก ์ ์ฅ ํ ๋ช
๋ นํ๋กฌํํธ์์ python test.py ์คํํ๋ฉด beautiful์ ์คํ
๋ฐ ๊ฒฐ๊ณผ beauti๊ฐ ์ถ๋ ฅ๋จ
from nltk.stem.porter import *
stemmer = PorterStemmer()
print(stemmer.stem('beautiful'))
#4. ์ 3๋ฒ์ ์ ์ฐจ๋ฅผ test.py๋ฅผ ์์ ํ์ฌ ๋ค์ ๊ฐ ๋จ์ด์ ์คํ
๋ฐ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ ํ์ด์ฌ ์ฝ๋๋ฅผ ์์ฑํ์์ค.
'''
automate
automates
automated
automatic
automatical
automatically
automating
automation
operate
operating
operates
operation
operative
operatives
operational
'''
IR_00_ngram (bi-gram)
IR_ngram_lnc.ltc (lnc.ltc)
์ฝ๋์ ๊ฐ๋จํ ์์ .(ex lnc.ltc๋ก ์์ ํด๋ณด๊ฑฐ๋ผ!)
'๐ฑโ๐ป์ ๊ณต ๊ณต๋ถ > ์ ๋ณด๊ฒ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
#10 ์ ํฉ์ฑ ํผ๋๋ฐฑ (Relevance Feedback) (0) | 2021.06.05 |
---|---|
# ๋ณต์ต : ์ ๋ณด๊ฒ์ ์ฐ์ต๋ฌธ์ (0) | 2021.06.04 |
#9 ์ธ์ด ๋ชจ๋ธ(Language Model) (0) | 2021.06.04 |
#8. ํ๋ฅ ๋ชจ๋ธ(Probabilistic Model) (2) | 2021.06.01 |
#7. ๊ฒ์ ์ฑ๋ฅํ๊ฐ TestCase (0) | 2021.06.01 |
๋ธ๋ก๊ทธ์ ์ ๋ณด
JiwonDev
JiwonDev