Word2vec

簡介

隨著計算機套用領域的不斷擴大，自然語言處理受到了人們的高度重視。機器翻譯、語音識別以及信息檢索等套用需求對計算機的自然語言處理能力提出了越來越高的要求。為了使計算機能夠處理自然語言，首先需要對自然語言進行建模。自然語言建模方法經歷了從基於規則的方法到基於統計方法的轉變。從基於統計的建模方法得到的自然語言模型稱為統計語言模型。有許多統計語言建模技術，包括n－gram、神經網路以及 log_linear 模型等。在對自然語言進行建模的過程中，會出現維數災難、詞語相似性、模型泛化能力以及模型性能等問題。尋找上述問題的解決方案是推動統計語言模型不斷發展的內在動力。在對統計語言模型進行研究的背景下，Google 公司在 2013年開放了 Word2vec這一款用於訓練詞向量的軟體工具。Word2vec 可以根據給定的語料庫，通過最佳化後的訓練模型快速有效地將一個詞語表達成向量形式，為自然語言處理領域的套用研究提供了新的工具。Word2vec依賴skip-grams或連續詞袋（CBOW）來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫（Tomas Mikolov）在Google帶領的研究團隊創造。該算法漸漸被其他人所分析和解釋。

依賴

詞袋模型

詞袋模型（Bag-of-words model）是個在自然語言處理和信息檢索(IR)下被簡化的表達模型。此模型下，像是句子或是檔案這樣的文字可以用一個袋子裝著這些詞的方式表現，這種表現方式不考慮文法以及詞的順序。最近詞袋模型也被套用在計算機視覺領域。詞袋模型被廣泛套用在檔案分類，詞出現的頻率可以用來當作訓練分類器的特徵。關於"詞袋"這個用字的由來可追溯到澤里格·哈里斯於1954年在Distributional Structure的文章。

Skip-gram 模型

Skip-gram 模型是一個簡單但卻非常實用的模型。在自然語言處理中，語料的選取是一個相當重要的問題: 第一，語料必須充分。一方面詞典的詞量要足夠大，另一方面要儘可能多地包含反映詞語之間關係的句子，例如，只有“魚在水中游”這種句式在語料中儘可能地多，模型才能夠學習到該句中的語義和語法關係，這和人類學習自然語言一個道理，重複的次數多了，也就會模仿了；第二，語料必須準確。也就是說所選取的語料能夠正確反映該語言的語義和語法關係，這一點似乎不難做到，例如中文裡，《人民日報》的語料比較準確。但是，更多的時候，並不是語料的選取引發了對準確性問題的擔憂，而是處理的方法。 n元模型中，因為視窗大小的限制，導致超出視窗範圍的詞語與當前詞之間的關係不能被正確地反映到模型之中，如果單純擴大視窗大小又會增加訓練的複雜度。Skip-gram 模型的提出很好地解決了這些問題。顧名思義，Skip-gram 就是“跳過某些符號”，例如，句子“中國足球踢得真是太爛了”有4個3元詞組，分別是“中國足球踢得”、“足球踢得真是”、“踢得真是太爛”、“真是太爛了”，可是我們發現，這個句子的本意就是“中國足球太爛”可是上述 4個3元詞組並不能反映出這個信息。Skip-gram 模型卻允許某些詞被跳過，因此可以組成“中國足球太爛”這個3元詞組。如果允許跳過2個詞，即 2-Skip-gram。

Word2vec

基本介紹

簡介

依賴

套用

有關術語

相關詞條

熱門詞條