向量空間模型

簡介

向量空間模型（VSM：Vector Space Model）由Salton等人於20世紀70年代提出，並成功地套用於著名的SMART文本檢索系統。

概念

VSM概念簡單，把對文本內容的處理簡化為向量空間中的向量運算，並且它以空間上的相似度表達語義的相似度，直觀易懂。當文檔被表示為文檔空間的向量，就可以通過計算向量之間的相似性來度量文檔間的相似性。文本處理中最常用的相似性度量方式是餘弦距離。

M個無序特徵項ti，詞根/詞/短語/其他每個文檔dj可以用特徵項向量來表示（a1j,a2j，…，aMj）權重計算，N個訓練文檔AM*N= (aij) 文檔相似度比較1）Cosine計算，餘弦計算的好處是，正好是一個介於0到1的數，如果向量一致就是1，如果正交就是0，符合相似度百分比的特性,餘弦的計算方法為，向量內積/各個向量的模的乘積.2）內積計算，直接計算內積，計算強度低，但是誤差大。

向量空間模型（或詞組向量模型) 是一個套用於信息過濾，信息擷取，索引以及評估相關性的代數模型。SMART是首個使用這個模型的信息檢索系統。

檔案（語料）被視為索引詞（關鍵字）形成的多次元向量空間，索引詞的集合通常為檔案中至少出現過一次的詞組。

搜尋時，輸入的檢索詞也被轉換成類似於檔案的向量，這個模型假設，檔案和搜尋詞的相關程度，可以經由比較每個檔案(向量）和檢索詞（向量）的夾角偏差程度而得知。

實際上，計算夾角向量之間的餘弦比直接計算夾角容易：

餘弦為零表示檢索詞向量垂直於檔案向量，即沒有符合，也就是說該檔案不含此檢索詞。

通過上述的向量空間模型，文本數據就轉換成了計算機可以處理的結構化數據，兩個文檔之間的相似性問題轉變成了兩個向量之間的相似性問題。

向量空間模型

基本介紹

簡介

概念

相關詞條

熱門詞條