當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

算法学习笔记【1】：KMP 算法

發布時間：2024/3/12 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了算法学习笔记【1】：KMP 算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實際上這個算法很早就學了，但是那個時候并沒有了解的很清晰。搞得好像現在有似的

首先，KMP 是三個人的名字。。。

首先，KMP 算法是用于字符串匹配的，時間復雜度為 $O (n + m)$ $^{[1]}$ 。

Part 0:KMP 算法的誕生（可跳過）

我們假設有兩個字符串 $s_1$ ， $s_2$ ，其中 $s_1$ 為模式串， $s_2$ 為文本串。

首先我們考慮普通查找算法的時間復雜度，最壞會被卡到 $O (nm)$

為什么會這么慢？

加入我們的 $s_1$ ， $s_2$ 長這樣 $^{[2]}$ ：

abababcabaa ababcabaa

當 $i = 5$ 而 $j = 5$ 時， $j$ 會直接跳回到 $1$ ，但是顯然，跳到 $3$ 會更加快速，那么我該怎么讓電腦知道這個 $j$ 跳到這里也行呢~

KMP 算法橫空出世！

使用 KMP 算法即可解決

Part 1：KMP 算法的思路

KMP 算法的精髓就在于一個數組 $km p$ 上。

這個數組可以記錄下當失配時 $j$ 要跳到的地方。

這樣就可以方便快速的“智能”選擇。

那么匹配就變得十分簡單：【見下文 Part 2】

請讀者自行理解 $km p$ 數組的含義

那么 $km p$ 數組有什么含義？

注：此處的 i，j 含義與一般情況下不同

$km p$ 數組可以記錄下模式串在第 $1 ? j$ 的位置中的最長的真前綴與真后綴相同的長度。

如此，我們就可以實現回跳時可以跳到最后的位置，以便繼續匹配。

接下來，我們就需要思考如何求出 $km p$ 數組。

這里我們考慮一個騷操作：自己匹配自己。

代碼見下文 Part 2

然后就結果了。

Part 2:Code

首先放代碼（洛谷 P3375 【模板】KMP字符串匹配）：

#include<bits/stdc++.h> using namespace std; const int N=1e6+10; int n,m,kmp[N];//kmp 數組，懂得都懂 char s1[N],s2[N]; int main(){scanf("%s%s",s1+1,s2+1);n=strlen(s1+1),m=strlen(s2+1);int j=0; //kmp begin emm 這個只是我自己寫代碼的注釋 //這個就是自己匹配自己的操作for(int i=2;i<=m;i++){while(j&&s2[j+1]!=s2[i])j=kmp[j];if(s2[j+1]==s2[i])j++;kmp[i]=j;} //匹配文本串j=0;for(int i=1;i<=n;i++){while(j&&s2[j+1]!=s1[i])j=kmp[j];if(s2[j+1]==s1[i]){j++;if(j==m)cout<<i-m+1<<endl,j=kmp[j];}}for(int i=1;i<=m;i++)cout<<kmp[i]<<' '; //主要懶得寫注釋 //kmp endreturn 0; }

Part 3: 時間復雜度分析

眾所周知，顯然，復雜度是 $O (n + m)$ 。

其實很簡單，因為 $j$ 所進行的自增的次數不可能超過 $m$ ，因為每次最多自增 $1$ ，會跳又不可能跳到比 $0$ 更小，所以就只跳 $n + m$ 次。

注：

[1]本文中 $n$ ， $m$ 分別代表模式串和文本串的長度，同時 $i$ 表示文本串的索引， $j$ 表示模式串的索引；
[2]此處的字符串借鑒了此文章：link；

總結

以上是生活随笔為你收集整理的算法学习笔记【1】：KMP 算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。