當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

几个冷门字符串算法的学习笔记（最小表示法，exKMP，Lyndon Word）

發布時間：2023/12/3 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了几个冷门字符串算法的学习笔记（最小表示法，exKMP，Lyndon Word）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

所有下標均從1開始

最小表示法

給定一個串，求字典序最小的循環同構。

我們把串復制一遍接在后面，然后求出 $[1, N]$ 開始的長為 $N$ 的子串中最小的

先設 $i = 1, j = 2$

然后暴力找出 $i$ 和 $j$ 往后匹配的第一個不同的位置，記為 $i + k$ 和 $j + k$

如果 $S_{i+k}<S_{j+k}$ ,說明 $i$ 比 $j$ 優，所以 $j$ 不是最優解；然后發現 $i + 1$ 比 $j + 1$ 優，所以 $j + 1$ 不是最優解……這樣可以讓 $j$ 直接跳到 $j + k + 1$ 。

$S_{i+k}>S_{j+k}$ 同理

如果 $i = j$ ，隨便讓一個 $+ 1$ 即可

兩個指針都不能超過 $N$ ，一個超過之后另一個就是答案

因為所有位置都會被遍歷，而最優解一定不會被丟掉，所以正確性可以保證。

復雜度顯然是 $O (N)$

模板題

#include <iostream> #include <cstdio> #include <cstring> using namespace std; char s[10005]; int main() {int T;scanf("%d",&T);while (T--){scanf("%s",s);int n=strlen(s);int i=0,j=1;while (i<n&&j<n)for (int k=0;;k++){if (s[(i+k)%n]!=s[(j+k)%n]){if (s[(i+k)%n]>s[(j+k)%n])i+=k+1;else j+=k+1;if (i==j) j++;break;}if (k==n) goto end;}end:printf("%d\n",min(i,j)+1);}return 0; }

(遠古代碼，和上面講的略有不同，僅供參考)

擴展KMP

官方名稱應該叫Z算法，不知道為啥傳到國內就變成擴展KMP了

但實際上思想和manacher很像所以應該叫擴展馬拉車

解決的問題是給兩個串 $S, T$ ,求 $T$ 的每個后綴和 $S$ 的最長公共前綴

先把 $S$ 接在 $T$ 后面，中間加個#之類的東西把這個串記為 $A$

然后設 $p_i$ 表示 $A$ 的從 $i$ 開始的后綴和 $T$ （也可以是 $A$ ）的最長公共前綴

并且設公共前綴擴展到的最右位置為 $m x$ ,取到這個最大值的 $i$ 為 $x$

然后 $i$ 從 $2$ 開始遍歷（因為 $p_1$ 沒有意義還會把算法搞砸）

如果 $i < m x$

因為上下橙色位置相同，所以 $p_i=p_{i-x+1}$ ，當然要和 $m x ? i + 1$ 取 $min?\min$

如果 $\geq mx$ ，不管

然后暴力擴展，更新 $m x$ ,沒了

復雜度顯然 $O (∣ S ∣ + ∣ T ∣)$

模板題

#include <iostream> #include <cstdio> #include <cstring> #include <cctype> #define MAXN 200005 using namespace std; char s[MAXN],t[MAXN]; int p[MAXN]; int main() {scanf("%s%s",t+1,s+1);int m=strlen(s+1);strcat(s+1,"#");strcat(s+1,t+1);int n=strlen(s+1);for (int i=2,x=0,mx=0;i<=n;i++){p[i]=i<=mx? min(p[i-x+1],mx-i+1):0;while (s[i+p[i]]==s[p[i]+1]) ++p[i];if (i+p[i]-1>mx) x=i,mx=i+p[i]-1;}for (int i=1;i<=n;i++)if (s[i]=='#') puts("");else printf("%d ",i>1? p[i]:m);return 0; }

Lyndon Word

定義：一個串是Lyndon Word（以下簡稱LW），當且僅當它本身是自己字典序最小的后綴

下文字符串的比較均為字典序，+為字符串拼接

性質1 兩個LW $u, v$ ,如果 $u < v$ ,那么 $u + v$ 是LW

對于 $v$ 的后綴，它比 $v$ 大，所以一定不是最小的；

對于 $v$ ,因為 $u < v$ ,所以 $u + v < v$

對于 $(u 的后綴) + v$ ,因為 $u < (u 的后綴)$ ,所以 $u + v < (u 的后綴) + v$

所以 $u + v$ 是最小的

所以LW可以遞歸定義：

單個字符是LW

多個字典序遞增的LW順次拼接后是LW

性質2 一個LW將最后一個字符變大后仍是LW

只有最后一個只包含一個字符的后綴變大，前面大小關系不變

性質3 任意字符串 $S$ 存在且僅存在一種分解方式 $S=s_1+s_2+...+s_n$ ,使得所有 $s_i$ 均為LW且單調不增

證明是不可能的，這輩子都是不可能的

把性質3中的分解稱為Lyndon分解

接下來要講的就是線性求Lyndon分解的Duval算法

首先三個指針 $i, j, k$ ，表示 $i$ 以前的分解已經固定,現在處理第 $k$ 個字符, $j$ 一會兒說

即 $[1, i)$ 為 $s_1+s_2+...+s_n$ ,其中 $s_i$ 為LW且單調不增

$[i, k)$ 為 $t+t+...+t+t_1$ ,其中 $t$ 是LW， $t_1$ 是 $t$ 的可空前綴

也就是一個LW不斷循環，最后一個循環節可以不完整。注意這不一定是 $[i, k)$ 的Lyndon分解，因為 $t_1$ 不一定是LW

別問為啥，問就是歸納法

現在把 $S_k$ 加在后面，如果要繼續循環，應該加的是 $S_{k-循環節長度}$ ，我們把這個 $k$ 應該跟的位置記為 $j$

如果 $S_j=S_k$ ，說明循環正常，繼續往后

如果 $S_j<S_k$ ，根據性質1，最后一個不完整的循環節 $t_1$ 加上 $S_k$ 是個LW并且比前面的 $t$ 都大，不斷向前合并發現整段都是LW。所以將 $[i, k]$ 一長串合并成新的 $t$ ，即令 $j = i$

如果 $S_j>S_k$ 不管 $t_1$ 和 $S_k$ 大小關系，反正后面怎么加怎么都會小于 $t$ ,所以沒 $t$ 啥事了，把所有 $t$ 固定下來， $t_1$ 作為新的循環節。然后 $t_1$ 這個地方，我們之前以為它會進入循環，然而它沒有，這里面漏了一些信息，所以需要從 $t_1$ 的開頭重新分解

模板題

#include <iostream> #include <cstdio> #include <cstring> #include <cctype> #define MAXN (1<<20)+5 using namespace std; char s[MAXN]; int main() {scanf("%s",s+1);int n=strlen(s+1);for (int i=1;i<=n;){int j=i,k=i+1;while (s[j]<=s[k]){if (s[j]==s[k]) ++j;else j=i;++k;}while (i<=j){printf("%d ",i+k-j-1);i+=k-j;}}return 0; }

我華燈宴呢

總結

以上是生活随笔為你收集整理的几个冷门字符串算法的学习笔记（最小表示法，exKMP，Lyndon Word）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【ZJOI2015】幻想乡 Wi-Fi
下一篇： Luat蓝牙指南