BM算法

定義

S[i]為字元串S從1開始排列的第i個字元
S[i..j]為字元串S的一個子串，始於i，終於j。
S的前綴定義為S[1..i],1<i<n，n為字元串S的長度。
S的後綴定義為S[i..n],1<i<=n，小於字元串S的長度。
檢索的字元串稱為pattern，用符號P表示。
被檢索字元稱為text，用符號T表示。
P的長度為n
T的長度為m
k表示P的最後一個字元在T中的位置。
當匹配發生時，P在T中的位置為T[(k-n+1)..k]。

原理

不同於樸素模式（brute-force search）的逐個字元對比，Boyer-Moore充分使用預處理P的信息來儘可能跳過更多的字元。通常，我們比較一個字元串都是從首字母開始，逐個比較下去。一旦發現有不同的字元，就需要從頭開始進行下一次比較。這樣，就需要將字串中的所有字元一一比較。Boyer-Moore算法的關鍵在於，當P的最後一個字元被比較完成後，我們可以決定跳過一個或更多個字元。如果最後一個字元不匹配，那么就沒必要繼續比較前一個字元。如果最後一個字元未在P中出現，那么我們可以直接跳過T的n個字元，比較接下來的n個字元，n為P的長度（見定義）。如果最後一個字元出現在P中，那么跳過的字元數需要進行計算（也就是將P整體往後移），然後繼續前面的步驟來比較。通過這種字元的移動方式來代替逐個比較是這個算法如此高效的關鍵所在。

形式化的表述方式為，從k=n開始，也就是P從T的最開始進行比較。緊接著，P的第n個字元和T的第k個字元開始：字元串依次從P的最後一個字元到最開始的字元。結束條件是當比較到達P的最開始（此時匹配完成），或按照規則移動後的字元部匹配發生時。然後，在新的對齊位置重新開始比較，如此反覆，直到到達T的結尾。

移動規則是一張間恆定的查找表，通過對P的預處理產生的。

移動規則

移動字元數是通過兩條規則決定的：壞字元規則和好後綴規則。實際移動為通過這兩條規則計算出的最大移動個數。

壞字元規則

原理

-	-	-	-	X	-	-	K	-	-	-
A	N	P	A	N	M	A	N	A	M	-
-	N	N	A	A	M	A	N	-	-	-
-	-	-	N	N	A	A	M	A	N	-

Demonstration of bad character rule with patternNNAAMAN.

BM算法

基本介紹

定義

原理

移動規則

壞字元規則

好後綴規則

相關詞條

熱門詞條