动态规划 —— 线性 DP —— 字符串编辑距离
【概述】
字符串編輯距離,即 Levenshtein 距離,是俄國科學家 Vladimir Levenshtein 提出的概念,是指從一個字符串修改到另一個字符串時,編輯單個字符所需的最少次數,編輯單個字符允許的操作有:替換、插入、刪除。
Levenshtein 距離一般用來衡量兩個字符串的相似度,一般來說,兩個字符串的編輯距離越小,相似度越大。
舉例來說,從 "set" 改到 "sitting" 需要 5 次單字符編輯操作:
- e 修改為 i:sit
- 添加 t:sitt
- 添加 i:sitti
- 添加 n:sittin
- 添加 g:sitting
因此,set 與 sitting 的編輯距離為:3
【Levenshtein 算法】
Levenshtein 算法又稱編輯距離(Edit Distance)算法,用于求兩個長度分別為 n、m的字符串 a、b 的 Levenshtein 距離,其是一個線性動態規劃的算法,時空復雜度均為 O(nm)。
1. 狀態轉移方程
對于兩個字符串 a、b,其長度為 |a|、|b|,他們間的編輯距離定義為:
其中, 是指字符串 a 的前 i 個字符和字符串 b 的前 j 個字符的編輯距離。
在有了編輯距離后,字符串 a、b 的相似度定義為:
2.算法原理
對于 a、b 兩個字符串來說,我們先考慮極端的情況,即 a 或 b 的長度為 0 時,那么要編輯的次數就是另一個字符串的長度。
之后,我們考慮一般情況,在 k 個操作中有:
- 刪除操作:將 a[1],a[2],...,a[i-1] 轉換為 b[1],b[2],...,b[j]
- 插入操作:將 a[1],a[2],...,a[i] 轉換為 b[1],b[2],...,b[j-1]
- 替換操作:將 a[1],a[2],...,a[i-1] 轉換為 b[1],b[2],...,b[j-1]
對于刪除操作,只需將 a[i] 從 a 中移除,即可完成轉換,此時編輯次數為 k+1
對于插入操作,只需在 a[i] 后加上 b[j],即可完成轉換,此時編輯次數為 k+1
對于替換操作,只需將 a[i] 轉換為 b[j],即可完成轉換,需要注意的是,如果 a[i] 與 b[j] 相同,那么此時編輯次數為 k,如果 a[i] 與 b[j] 不同,那么此時編輯次數為 k+1
而為了保證將 a[1],a[2],...,a[i] 轉換為 b[1],b[2],...,b[j] 的操作次數是最少的,因此要在三種情況中取最小值,故而只需要按此邏輯進行迭代,保證每一步操作都是最小即可。
3.實例
我們以字符串 a:abroad 與字符串 b:aboard 為例,并在計算過程中將每一步的操作數放入 i+1 行 j+1 列的二維數組 dp 中,此時 dp[i][j] 即為將 a[1],a[2],...,a[i] 轉換為 b[1],b[2],...,b[j] 所需的最小操作數。
首先考慮極端情況,即 a 為空字符串或 b 為空字符串時,需要的操作此時為另一字符串的長度,即:dp[i][0]=i,dp[0][j]=j
之后我們考慮一般情況,從頭到尾遍歷這個二維數組,從第一行到最后一行,根據定義來計算 dp[i][j] 的值,即 dp[i][j] 的值由 dp[i][j] 的上方元素 dp[i-1][j]、左方元素 dp[i][j-1]、左上方元素 dp[i-1][j-1] 的值來計算得出
最后 dp[aLen][bLen] 即為字符串 a 轉換到 b 的 Levenshtein 距離。
如下圖,最終 "abroad" 與 "aboard" 的 Levenshtein 距離 ,相似度
4.實現
char a[N], b[N]; int dp[N][N]; int main() {scanf("%s%s", a, b);int aLen = strlen(a);int bLen = strlen(b);//極端情況for (int i = 1; i <= aLen; i++) //以i+1來考慮第i個字符的情況dp[i][0] = i;for (int j = 1; j <= bLen; j++) //以j+1來考慮第j個字符的情況dp[j][0] = j;for (int i = 1; i <= aLen; i++) { //以i+1來考慮第i個字符的情況for (int j = 1; j <= bLen; j++) { //以j+1來考慮第j個字符的情況if (a[i - 1] == b[j - 1]) //相同時距離不變dp[i][j] = dp[i - 1][j - 1];else //不同時取三個位置的最小值再+1dp[i][j] = min(dp[i - 1][j - 1],min(dp[i - 1][j], dp[i][j - 1])) + 1;}}printf("%d\n", dp[aLen][bLen]);return 0; }?
總結
以上是生活随笔為你收集整理的动态规划 —— 线性 DP —— 字符串编辑距离的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 买书(信息学奥数一本通-T1293)
- 下一篇: 能量项链(NOIP-2006 提高组)