簡約KMP算法

簡介

KMP算法是一種改進的字元串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt同時發現，因此人們稱它為克努特-莫里斯-普拉特算法（簡稱KMP算法）。KMP算法的關鍵是利用匹配失敗後的信息，儘量減少模式串與主串的匹配次數以達到快速匹配的目的。因其操作方法簡單，又稱簡約KMP算法。

kmp算法完成的任務是：給定兩個字元串O和f，長度分別為n和m，判斷f是否在O中出現，如果出現則返回出現的位置。常規方法是遍歷a的每一個位置，然後從該位置開始和b進行匹配，但是這種方法的複雜度是O(nm)。kmp算法通過一個O(m)的預處理，使匹配的複雜度降為O(n+m)。

思想

我們首先用一個圖來描述kmp算法的思想。在字元串O中尋找f，當匹配到位置i 時兩個字元串不相等，這時我們需要將字元串f向前移動。常規方法是每次向前移動一位，但是它沒有考慮前i-1位已經比較過這個事實，所以效率不高。事實上，如果我們提前計算某些信息，就有可能一次前移多位。假設我們根據已經獲得的信息知道可以前移k位，我們分析移位前後的f 有什麼特點。我們可以得到如下的結論：

1、A段字元串是f的一個前綴；

2、B段字元串是f的一個後綴。

3、A段字元串和B段字元串相等。

所以前移k位之後，可以繼續比較位置i的前提是f的前 i-1個位置滿足：長度為i-k-1的前綴A和後綴B相同。只有這樣，我們才可以前移k位後從新的位置繼續比較。

所以kmp算法的核心即是計算字元串f每一個位置之前的字元串的前綴和後綴公共部分的最大長度（不包括字元串本身，否則最大長度始終是字元串本身）。獲得f 每一個位置的最大公共長度之後，就可以利用該最大公共長度快速和字元串O比較。當每次比較到兩個字元串的字元不同時，我們就可以根據最大公共長度將字元串f 向前移動(已匹配長度-最大公共長度)位，接著繼續比較下一個位置。事實上，字元串f的前移只是概念上的前移，只要我們在比較的時候從最大公共長度之後比較f和O即可達到字元串f 前移的目的。

數組計算

理解了kmp算法的基本原理，下一步就是要獲得字元串f每一個位置的最大公共長度。這個最大公共長度在算法導論裡面被記為next數組。在這裡要注意一點，next數組表示的是長度，下標從1開始；但是在遍歷原字元串時，下標還是從0開始。假設我們現在已經求得next[1]、next[2]、……next[i]，分別表示長度為1到i的字元串的前綴和後綴最大公共長度，現在要求next[i+1]。由上圖我們可以看到，如果位置i和位置next[i]處的兩個字元相同（下標從零開始），則next[i+1]等於next[i]加1。如果兩個位置的字元不相同，我們可以將長度為next[i]的字元串繼續分割，獲得其最大公共長度next[next[i]]，然後再和位置i的字元比較。這是因為長度為next[i]前綴和後綴都可以分割成上部的構造，如果位置next[next[i]]和位置i的字元相同，則next[i+1]就等於next[next[i]]加1。如果不相等，就可以繼續分割長度為next[next[i]]的字元串，直到字元串長度為0為止。

簡約KMP算法

基本介紹

簡介

思想

數組計算

字元串匹配

算法代碼

舉例

改進

相關詞條

熱門詞條