詞頻

詞頻

TF-IDF(term frequency–inverse document frequency)詞頻--反轉檔案頻率,是一種用於情報檢索與文本挖掘的常用加權技術,用以評估一個詞對於一個檔案或者一個語料庫中的一個領域檔案集的重複程度。詞頻統計為學術研究提供了新的方法和視野。

基本介紹

  • 中文名:詞頻
  • 拼音:cí pín
  • 釋義:語言材料中詞的使用頻率
  • 詞性:名詞
詞義,詞頻統計,原理,例子,理論依據,

詞義

【詞語】:詞頻

詞頻統計

TF-IDF(term frequency–inverse document frequency)詞頻--反轉檔案頻率,是一種用於情報檢索與文本挖掘的常用加權技術,用以評估一個詞對於一個檔案或者一個語料庫中的一個領域檔案集的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎套用,作為檔案與用戶查詢之間相關程度的度量或評級。

原理

在一份給定的檔案里,詞頻(term frequency,TF)指的是某一個給定的詞語在該檔案中出現的次數。這個數字通常會被正規化,以防止它偏向長的檔案。(同一個詞語在長檔案里可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)對於在某一特定檔案里的詞語 ti 來說,它的重要性可表示為:
以上式子中 ni,j 是該詞在檔案dj中的出現次數,而分母則是在檔案dj中所有字詞的出現次數之和。
逆向檔案頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取對數得到

例子

有很多不同的數學公式可以用來計算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻 (TF) 是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個,而詞語“母牛”出現了3次,那么“母牛”一詞在該檔案中的詞頻就是 0.03 (3/100)。一個計算檔案頻率 (DF) 的方法是測定有多少份檔案出現過“母牛”一詞,然後除以檔案集裡包含的檔案總數。所以,如果“母牛”一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 9.21=( ln(10,000,000 / 1,000) )。最後的TF-IDF的分數為0.28=( 0.03 * 9.21)。

理論依據

TFIDF算法是建立在這樣一個假設之上的:對區別文檔最有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少的詞語,所以如果特徵空間坐標系取TF詞頻作為測度,就可以體現同類文本的特點。另外考慮到單詞區別不同類別的能力,TFIDF法認為一個單詞出現的文本頻數越小,它區別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特徵空間坐標系的取值測度,並用它完成對權值TF的調整,調整權值的目的在於突出重要單詞,抑制次要單詞。但是在本質上IDF是一種試圖抑制噪聲的加權 ,並且單純地認為文本頻率小的單詞就越重要,文本頻率大的單詞就越無用,顯然這並不是完全正確的。IDF的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分布情況,使其無法很好地完成對權值調整的功能,所以TFIDF法的精度並不是很高。
此外,在TFIDF算法中並沒有體現出單詞的位置信息,對於Web文檔而言,權重的計算方法應該體現出HTML的結構特徵。特徵詞在不同的標記符中對文章內容的反映程度不同,其權重的計算方法也應不同。因此應該對於處於網頁不同位置的特徵詞分別賦予不同的係數,然後乘以特徵詞的詞頻,以提高文本表示的效果。

相關詞條

熱門詞條

聯絡我們