n元語法

簡介

n元語法（英語：n-gram）指文本中連續出現的n個語詞。n元語法模型是基於(n-1)階馬爾可夫鏈的一種機率語言模型，通過n個語詞出現的機率來推斷語句的結構。這一模型被廣泛套用於機率論、通信理論、計算語言學（如基於統計的自然語言處理）、計算生物學（如序列分析）、數據壓縮等領域。

當n分別為1、2、3時，又分別稱為一元語法（unigram）、二元語法（bigram）與三元語法（trigram）。

馬爾可夫鏈

馬爾可夫鏈（英語：Markov chain），又稱離散時間馬爾可夫鏈（discrete-time Markov chain，縮寫為DTMC），因俄國數學家安德烈·馬爾可夫（俄語：Андрей Андреевич Марков）得名，為狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。該過程要求具備“無記憶”的性質：下一狀態的機率分布只能由當前狀態決定，在時間序列中它前面的事件均與之無關。這種特定類型的“無記憶性”稱作馬爾可夫性質。馬爾科夫鏈作為實際過程的統計模型具有許多套用。

在馬爾可夫鏈的每一步，系統根據機率分布，可以從一個狀態變到另一個狀態，也可以保持當前狀態。狀態的改變叫做轉移，與不同的狀態改變相關的機率叫做轉移機率。隨機漫步就是馬爾可夫鏈的例子。隨機漫步中每一步的狀態是在圖形中的點，每一步可以移動到任何一個相鄰的點，在這裡移動到每一個點的機率都是相同的（無論之前漫步路徑是如何的）。

語言模型

統計式的語言模型是藉由一個機率分布，而指派機率給字詞所組成的字串：

語言模型經常使用在許多自然語言處理方面的套用，如語音識別，機器翻譯，詞性標註，句法分析和資訊檢索。由於字詞與句子都是任意組合的長度，因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題)，也使得在語料庫中估算字串的機率變得很困難，這也是要使用近似的平滑n元語法(N-gram)模型之原因。

在語音辨識和在資料壓縮的領域中，這種模式試圖捕捉語言的特性，並預測在語音串列中的下一個字。

當用於資訊檢索，語言模型是與檔案有關的集合。以查詢字“Q”作為輸入，依據機率將檔案作排序，而該機率代表該檔案的語言模型所產生的語句之機率。

示例

不同領域中的n元語法示例

領域	單位	示例	一元語法	二元語法	三元語法
蛋白質測序	胺基酸	… Cys-Gly-Leu-Ser-Trp …	…, Cys, Gly, Leu, Ser, Trp, …	…, Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, …	…, Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, …
DNA測序	鹼基對	…AGCTTCGA…	…, A, G, C, T, T, C, G, A, …	…, AG, GC, CT, TT, TC, CG, GA, …	…, AGC, GCT, CTT, TTC, TCG, CGA, …
計算語言學	字元	…to_be_or_not_to_be…	…, t, o, _, b, e, _, o, r, _, n, o, t, _, t, o, _, b, e, …	…, to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, …	…, to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, …
計算語言學	單詞	… to be or not to be …	…, to, be, or, not, to, be, …	…, to be, be or, or not, not to, to be, …	…, to be or, be or not, or not to, not to be, …

n元語法

基本介紹

簡介

馬爾可夫鏈

語言模型

示例

相關詞條

熱門詞條