js实现敏感词过滤算法
最近弄了一個用戶發表評論的功能,用戶上傳了評論,再文章下可以看到自己的評論,但作為社會主義接班人,踐行社會主義核心價值觀,所以給評論敏感詞過濾的功能不可少,在網上找了資料,發現已經有非常成熟的解決方案。
常用的方案用這么兩種
全文搜索,逐個匹配。這種聽起來就不夠高大上,在數據量大的情況下,會有效率問題,文末有比較
DFA算法-確定有限狀態自動機
DFA算法介紹
DFA是一種計算模型,數據源是一個有限個集合,通過當前狀態和事件來確定下一個狀態,即 狀態+事件=下一狀態,由此逐步構建一個有向圖,其中的節點就是狀態,所以在DFA算法中只有查找和判斷,沒有復雜的計算,從而提高算法效率
實現邏輯
構造數據結構
將敏感詞轉換成樹結構,舉例敏感詞有著這么幾個 ['日本鬼子','日本人','日本男人'],那么數據結構如下(圖片引用參考文章)
數據結構每個文字是一個節點,連續的節點組成一個詞,日本人對應的就是中間的那條鏈,我們可以使用對象或者map來構建樹,這里的栗子采用map構建節點,每個節點中有個狀態標識,用來表示當前節點是不是最后一個,每條鏈路必須要有個終點節點,先來看下構建節點的流程圖
流程圖判斷邏輯
先從文本的第一個字開始檢查,比如你我是日本鬼子,第一個字 你,在樹的第一層找不到這個節點,那么繼續找第二個字,到了日的時候,第一層節點找到了,那么接著下一層節點中查找本,同時判斷這個節點是不是結尾節點,若是結尾節點,則匹配成功了,反之繼續匹配。
代碼實現
####構造數據結構
/** * @description * 構造敏感詞map * @private * @returns */ private makeSensitiveMap(sensitiveWordList) {// 構造根節點const result = new Map();for (const word of sensitiveWordList) {let map = result;for (let i = 0; i < word.length; i++) {// 依次獲取字const char = word.charAt(i);// 判斷是否存在if (map.get(char)) {// 獲取下一層節點map = map.get(char);} else {// 將當前節點設置為非結尾節點if (map.get('laster') === true) {map.set('laster', false);}const item = new Map();// 新增節點默認為結尾節點item.set('laster', true);map.set(char, item);map = map.get(char);}}}return result; }最終map結構如下
結構查找敏感詞
/** * @description * 檢查敏感詞是否存在 * @private * @param {any} txt * @param {any} index * @returns */ private checkSensitiveWord(sensitiveMap, txt, index) {let currentMap = sensitiveMap;let flag = false;let wordNum = 0;//記錄過濾let sensitiveWord = ''; //記錄過濾出來的敏感詞for (let i = index; i < txt.length; i++) {const word = txt.charAt(i);currentMap = currentMap.get(word);if (currentMap) {wordNum++;sensitiveWord += word;if (currentMap.get('laster') === true) {// 表示已到詞的結尾flag = true;break;}} else {break;}}// 兩字成詞if (wordNum < 2) {flag = false;}return { flag, sensitiveWord }; } /** * @description * 判斷文本中是否存在敏感詞 * @param {any} txt * @returns */ public filterSensitiveWord(txt, sensitiveMap) {let matchResult = { flag: false, sensitiveWord: '' };// 過濾掉除了中文、英文、數字之外的const txtTrim = txt.replace(/[^\u4e00-\u9fa5\u0030-\u0039\u0061-\u007a\u0041-\u005a]+/g, '');for (let i = 0; i < txtTrim.length; i++) {matchResult = checkSensitiveWord(sensitiveMap, txtTrim, i);if (matchResult.flag) {console.log(`sensitiveWord:${matchResult.sensitiveWord}`);break;}}return matchResult; }效率
為了看出DFA的效率,我做了個簡單的小測試,測試的文本長度為5095個漢字,敏感詞詞庫中有2000個敏感詞,比較的算法分別為 DFA算法 和 String原生對象提供的 indexOfAPI做比較
// 簡單的字符串匹配-indexOf ensitiveWords.forEach((word) => {if (ss.indexOf(word) !== -1) {console.log(word)} })分別將兩個算法執行100次,得到如下結果
比較結果可直觀看出,DFA的平均耗時是在1ms左右,最大為5ms;indexOf方式的平均耗時在9ms左右,最大為14ms,所以DFA效率上還是非常明顯有優勢的。
參考文章
https://zh.wikipedia.org/wiki/%E7%A1%AE%E5%AE%9A%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E8%87%AA%E5%8A%A8%E6%9C%BA
https://blog.csdn.net/chenssy/article/details/26961957
總結
以上是生活随笔為你收集整理的js实现敏感词过滤算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [引]VS2005 之 Visual B
- 下一篇: 3.Cood