摘要:提示信息檢索文檔評分詞項權(quán)重計算向量空間模型第三部分權(quán)重計算文章目錄權(quán)重計算權(quán)重文檔頻率計算舉例權(quán)重權(quán)重計算在進行排序時,除了詞項頻率之外,我們通常還需要詞項在整個文檔集中的頻率和評分。那么我們就希望給它更高的權(quán)重。
提示:
信息檢索:文檔評分-詞項權(quán)重計算-向量空間模型
?第三部分:tf-idf權(quán)重計算
在進行排序時,除了詞項頻率tf之外,我們通常還需要詞項在整個文檔集中的頻率和評分。
原因,當詞項A和詞項B在文檔1中tf相同時,但詞項B在文檔集中每個文檔中都有,而詞項A只存在于文檔1中,那么A和B需要有一個重要性的排序。
罕見詞項要比常見詞項蘊含的信息要多很多,它出現(xiàn)的頻率越低,那么出現(xiàn)它的文檔就顯得相關(guān)性更高。那么我們就希望給它更高的權(quán)重。
那么對于常見詞而言,相對蘊含信息就相對偏少,給一個低的權(quán)重即可。
出現(xiàn)詞項的文檔數(shù)目
idft是反映信息量的一個指標。
用log10(N/dft)來限制N/dft的作用
N=1000000
vs | |
---|---|
文檔集頻率cf | t在整個文檔集中出現(xiàn)的次數(shù) |
文檔頻率df | 包含t的文檔數(shù)目 |
哪一個更適合查詢?即賦予更高的權(quán)重?
通過上圖,df(idf)的更適合做查詢
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/125634.html
摘要:在自然語言處理中,一個很重要的技術(shù)手段就是將文檔轉(zhuǎn)換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預(yù)處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據(jù)實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓(xùn),請勿以任何形式進行轉(zhuǎn)載。由于是日語項目,用到的分詞軟件等,在...
閱讀 3981·2023-01-11 11:02
閱讀 4486·2023-01-11 11:02
閱讀 3364·2023-01-11 11:02
閱讀 5385·2023-01-11 11:02
閱讀 4945·2023-01-11 11:02
閱讀 5872·2023-01-11 11:02
閱讀 5561·2023-01-11 11:02
閱讀 4382·2023-01-11 11:02