大数据认知计算在内容安全管控中的应用
點擊上方藍字關注我們
大數據認知計算在內容安全管控中的應用
杜雪濤
中國移動通信集團設計院有限公司,北京 100080
?摘要:通信網絡中存在海量垃圾和不良信息,這些信息需要被閱讀和理解,以便對其進行有效的特征提取和攔截封堵。基于人工分析的方法已經無法達到目的,需要使用基于大數據的認知計算技術代替人工進行海量的數據分析和理解,幫助人們制訂內容安全管控策略。針對電信詐騙治理、不良消息治理、變體消息治理和不良網站治理4個方面遇到的實際問題,分別提出了大數據認知計算的解決方案,并給出了創新性實踐的效果。實踐表明,提出的解決方案能夠快速發現不良信息,有效地提升內容管控質量。
關鍵詞:?大數據?;?認知計算?;?內容安全?;?詐騙識別
論文引用格式:
杜雪濤. 大數據認知計算在內容安全管控中的應用[J]. 大數據, 2021, 7(6): 53-66.
DU X T. Applications of big data cognitive computing in content security governance[J]. Big Data Research, 2021, 7(6): 53-66.
1 引言
隨著人工智能技術在自然語言處理領域的突破性進展,使用計算機代替人類閱讀和理解海量數據,幫助人們進行科學決策和方案制訂成為可能。基于大數據的認知計算技術應運而生。隨著該技術的不斷成熟,其被應用到醫療、法律、教育和金融等多個領域,成為各行業的研究熱點。
作為關鍵信息通信基礎設施的運營者和維護者,運營商有義務對通信網絡中傳播的信息進行內容安全管控。隨著信息傳輸速度日益加快,信息容量越來越大,信息變化速度越來越高,治理壓力持續加大。面對海量數據,人工分析方法已經無法應對不良信息的快速演變。因此亟須引入基于大數據分析的認知計算技術,用其代替人工分析,自動總結最新不良信息的規律和知識,幫助內容安全管控人員快速對新型不良信息做出正確有效的響應。
雖然認知計算已經被廣泛應用于多個領域,但其與內容安全治理相結合的場景尚不多見。本文討論的內容安全治理特指不良文本內容。目前通信運營商治理不良文本內容的手段主要分為線上攔截和線下分析兩種。在線上攔截中,可以配置關鍵詞組合策略,對發送的不良文本消息進行實時攔截。在線下分析中,可以對海量數據進行大數據分析,最終實現兩個目的:第一,發現線上分析無法識別的隱蔽不良文本消息,如詐騙信息與正常通信內容非常接近,很難通過定義關鍵詞進行識別;第二,優化線上的關鍵詞組合策略,發揮線上攔截系統的最大功效,如發現了更加精準高效的關鍵詞,用其替換已有線上關鍵詞。
圍繞上述兩個目的,本文將大數據認知計算技術創新性地應用到4個場景:詐騙信息識別與易感人群發現、不良關鍵詞知識庫構建、垃圾消息變體詞自動發現以及不良域名擬態拓展。詐騙信息識別與易感人群發現是為了發現隱蔽詐騙信息,后面3個應用場景都是為了有效地優化線上關鍵詞組合策略。其中,不良關鍵詞知識庫構建的目的是優化關鍵詞本身以及關鍵詞之間的布爾邏輯;垃圾消息變體詞自動發現的目的是生成變體關鍵詞策略,精準攔截變體垃圾信息;不良網站域名擬態擴展的目的是發現未知不良域名,以便將域名配置為關鍵詞,對包含不良域名的不良文本進行精準攔截。
本文基于自然語言處理與機器學習技術提出了大數據認知計算在這4種內容安全治理問題中的解決方案,并結合案例分析展示了認知計算在內容安全治理中的實踐效果。
2 應用場景1——詐騙信息識別與易感人群發現
2.1 問題背景
電信詐騙給用戶帶來了巨大的經濟損失,其中詐騙消息是詐騙分子與受害者建立聯系的重要環節。隨著電信詐騙黑色產業鏈逐步成熟,詐騙日趨呈現專業化、精準化、隱蔽化的特點。詐騙分子通過購買黑產數據獲得受害者個人信息,并在詐騙過程中準確說出受害者名字,冒充受害者的熟人,從而獲得受害者的信任。不同于其他違法類信息,該類信息幾乎不使用敏感詞,使用文本分類技術很難將其與正常消息進行區分,誤判率較高,治理效果不理想。為了實現對該類信息的精準識別,需要使用技術手段對犯罪分子使用各種身份群發信息的行為(以下稱為濫用身份行為)進行捕捉。為了實現這一目標,需要使用認知計算技術對海量非結構化信息內容進行精細化語義理解,識別其中的身份信息,并使用機器學習技術推斷身份信息的歸屬。當發現大量身份信息附著在同一個發送者身上時,則該發送者可能是濫用稱謂詐騙者。分析濫用稱謂詐騙者的詐騙對象,可以得到電信詐騙易感人群。
2.2 基于大數據認知計算的解決方案
如圖1所示,在識別濫用身份類詐騙時,首先需要使用命名實體識別技術對消息中的人名、組織機構名稱、QQ號、微信號、抖音號等信息進行精準識別。關于命名實體識別的研究成果國內外已有很多,最新的研究成果有基于BERT嵌入、轉移學習、自注意力機制等方法。一個命名實體可能代表了一種身份信息。當識別出身份信息后,還需要進一步推斷身份信息屬于消息發送者還是消息接收者。本文采用基于Transformer的深度神經網絡對身份信息的所有者進行推斷,從而將不同的身份信息聚合到消息發送者和消息接收者上。選擇Transformer主要有兩個原因:第一,Transformer模型的多頭自注意力網絡能夠自動學習輸入文本中詞語之間的任意距離的依賴關系;第二, Transformer模型的位置編碼機制將詞語的位置信息也融合到詞嵌入中,這就保證稱謂在開頭或結尾時,模型的自注意力網絡能夠有效地感知位置信息,進而通過位置信息對稱謂的歸屬進行準確的推斷。
圖1 濫用身份類詐騙的認知計算技術解決方案
命名實體歸屬的推斷通常需要考慮命名實體所在的上下文,如命名實體的前序詞語為“尊敬的”,則顯然該命名實體歸屬于消息接收者;而若命名實體的前序詞語是“我是”,則歸屬于消息發送者。同時命名實體所在消息位置也直接影響了消息歸屬,如命名實體在消息開頭則屬于接收者,在消息結尾則屬于發送者。在推斷命名實體歸屬時,Transformer可以充分考慮消息中的每一個詞對命名實體歸屬的影響,同時還可以通過位置編碼技術考慮命名實體所在的位置信息,因此能夠準確地推斷出命名實體的歸屬。
可以使用圖數據庫對分析出的海量號碼關聯身份信息進行存儲,并通過圖計算,快速找到身份信息過多的消息發送者。一般情況下,當一個消息發送者使用的身份信息超過10個時,則可以判定消息發送者為詐騙分子。當一個消息發送者被判定為詐騙分子后,其所發送信息的接收者均為潛在的詐騙受害者。同時若信息中有信息接收者的身份信息,則證明信息接收者的身份已經泄露,其還有可能被其他詐騙分子當作潛在的詐騙目標,屬于電信詐騙的易感人群。針對該類易感人群,可重點進行反電信詐騙的宣傳教育。
2.3 實踐案例
圖2是通過分析海量真實數據得到的濫用稱謂詐騙示例,每個類型的示例消息為同一個號碼發送。加粗的字段為算法識別出的稱謂信息,為了保護個人信息,示例中的稱謂信息已被模糊化。從消息內容可看出,消息的發送者稱謂信息可能會出現在消息的開頭、中間或結尾,模型都能夠進行較好的稱謂分辨。上述例子中每一種詐騙的發送者實際上都被模型賦予了20個以上的身份信息,此處限于篇幅僅各列出3個。
圖2???濫用稱謂詐騙示例
通過分析海量消息中的命名實體歸屬,將消息中的命名實體聚合到消息的發送者和接收者上,可以快速分析出濫用或偽造身份的詐騙消息發送行為。在實踐中,該算法每天可發現濫用稱謂類垃圾消息近百萬條,治理成效顯著。另外,由于該方法從詐騙分子偽造身份這一本質特征進行分析,并不依賴于具體的詐騙套路,故詐騙分子很難通過改變詐騙套路繞過該方法。
綜上所述,通過使用大數據認知計算中的自然語言處理技術,提取海量非結構化文本中的命名實體,再通過機器學習技術使用Transformer模型學習如何推斷命名實體屬于消息發送者還是接收者,可以有效地將命名實體按照消息的發送者聚類,從而找到具有過多命名實體的消息發送者,進而確定詐騙分子的手機號碼。
3 應用場景2——不良關鍵詞知識庫構建
3.1 問題背景
運營商在進行不良文本消息治理時,通常使用關鍵詞組合策略。關鍵詞組合策略由一系列關鍵詞和“與”“或”邏輯有機構成。當一條信息中包含策略定義的關鍵詞且滿足策略定義的邏輯組合時,該信息就會被判定為違規信息。關鍵詞組合策略通常由人來定義。策略制訂人員需要根據不同的不良文本消息特征定義不同的關鍵詞組合策略,過程費時費力,且覆蓋不全面。當策略數量達到上千條時,人工維護每一條策略的生命周期變得不可行。
此外,不同水平的策略制訂人員制訂的策略也存在較大的質量差距。普通策略制訂人員在制訂一條策略時往往聚焦于少量特定不良信息,只有有經驗的策略制訂人員才會進行策略的適度拓展,提高策略泛化能力。通過大數據認知計算技術,將海量不良信息凝練成不良關鍵詞知識庫,可以幫助缺乏經驗的策略制訂人員進行適度的拓展發揮。
為了達到上述目的,需要使用認知計算技術分析海量非結構化垃圾文本消息,使用深度學習與自然語言處理技術自動挖掘垃圾文本中不良關鍵詞之間的“共現”和“替代”關系,并形成知識庫。具體地,具有替代關系的兩個關鍵詞經常在相同的語境中出現,如“美國”和“漂亮國”在政治類消息中共享相同的語境,可相互替代。若要自動發現具有替代關系的關鍵詞,需要使用深度學習技術計算每個詞語的上下文語境表示,并計算語境之間的相似度,相似度越大,則兩個詞語之間的替代性越強。替代關系可以幫助策略管理人員拓展現有策略的“或”邏輯。
具有共現關系的兩個關鍵詞經常在相同類型的消息中一同出現:如“代開”和“發票”經常在涉黑類消息中出現。在進行共現關系挖掘時,不但要考慮兩個詞語在消息中共同出現的概率,還需要考慮其對不良消息的判別作用,可以通過機器學習技術構建文本分類模型來評價不同詞語共現特征對分類結果的影響,影響越大,則共現關系越強。策略管理人員可以通過共現關系拓展策略的“與”邏輯。
3.2 基于大數據認知計算的解決方案
關鍵詞的屬性信息中的類別傾向性和熱度比較容易使用大數據統計的方法獲得,統計關鍵詞在相應類別下的頻次即可。這里不再贅述。
關鍵詞的替代關系可以通過基于詞嵌入層的文本分類器來實現。詞嵌入層可以將輸入的關鍵詞轉化為稠密空間中的一個向量表達。當分類器進行訓練時,詞嵌入層將為不同詞語的向量表達進行優化,使得不同類別傾向性的詞語距離拉長,相同類別傾向性的詞語距離縮短。當在特定類別下兩個詞語具有相互替代效果時,兩個詞語的距離非常接近。可使用兩個向量的余弦距離量化關鍵詞替代關系的強弱。帶有詞嵌入層的文本分類模型有很多。例如,Ge L H等人通過詞嵌入模型來優化文本分類性能;Liu Q等人將面向特定領域的詞嵌入模型用于文本分類;同時標準Transformer網絡也包含詞嵌入層, Shaheen Z等人將Transformer應用于文本分類任務。另外,王玲將詞嵌入與長短期記憶(long short-term memory, LSTM)網絡進行組合,形成分類器。對于短消息分類場景,任選一種結構較簡單的包含詞嵌入層的分類器即可滿足要求。
關鍵詞的共現關系可以使用基于卷積與注意力機制神經網絡的分類器來實現。卷積窗口的大小決定了共現詞語的個數。卷積特征圖中的每一個元素代表了一種詞語共現關系。這些共現關系對分類結果會有不同程度的影響,注意力層會將這些影響量化為權重。當分類器輸入一條消息時,可以通過注意力矩陣權重找到與消息類別關聯最緊密的詞語共現關系。對每條消息都提取最重要的詞語共現關系,并進行統計聚合。可以實現對關鍵詞共現關系網絡的快速挖掘。將卷積與注意力機制組合的分類器較豐富,如Du J C等人提出了卷積循環注意力網絡(convolutional recurrent attention network,CRAN);Gao S等人構建了一種層次化的卷積注意力網絡,從詞級和句子級兩個層次對文檔進行分類;Liu G等人和Zheng J等人將卷積網絡、雙向LSTM網絡與注意力機制進行了不同的組合嘗試,并獲得了不錯的效果;閆躍等人使用多重注意力機制與卷積網絡結合,形成文本分類器。對于消息類短文本分類,采用卷積循環注意力網絡已經足夠。
綜上所述,關鍵詞的替代關系與共現關系需要訓練一個同時包含詞嵌入、卷積層和注意力層的神經網絡。如圖3所示,卷積循環注意力網絡將詞嵌入層通過卷積操作后輸出到注意力層,注意力信號的每一個元素代表了一種詞語共現關系。通過訓練該模型得到詞嵌入表達,同時在輸入消息時得到消息中詞語共現關系權重。這些信息可以用于計算關鍵詞替代關系和共現關系。
圖3???CRAN核心網絡結構
3.3 實踐案例
圖4展示了模型在真實短消息數據中的輸出數據示例。當將海量消息輸入卷積循環注意力網絡后,通過觀察注意力網絡的最大權重可以得到每條消息最重要的共現關系。圖4中案例使用的卷積窗口大小為3,因此共現關系表現為3個連續的詞語共同出現的特征。通過統計海量消息的共現特征,可以得到右側的知識庫。知識庫中的節點為共現特征庫中的詞,節點之間的邊描述詞之間的關系。圖4中“全場”和“低至”出現頻次較高,則可以構建兩者之間的“共現”關系連接。通過進一步計算節點的詞嵌入之間的余弦相似度,可以獲得替代關系,如“元”和“折”兩者的詞嵌入較為接近,故二者存在替代關系。通過如上知識,可以生成策略“(元|折)&低至”,即“元”和“折”是“或”邏輯,二者與“低至”形成“與”邏輯。
圖4???不良關鍵詞知識庫構建案例
策略制訂人員和管理人員借助不良關鍵詞知識庫可以快速對最新的不良信息提取關鍵詞并形成策略,從而提高不良信息的識別質量。基于該知識庫開發的策略查準優化功能能夠平均提升策略查準率15%,基于該知識庫開發策略查全優化功能能夠平均提升策略貢獻力10%。基于該知識庫研發的策略自動優化流程能夠大大提升策略制訂人員應對新型不良信息的響應速度(由小時級別提升到分鐘級別)。
綜上所述,在使用大數據與認知計算前,將不良信息轉化為關鍵詞策略主要依靠人的智慧和經驗,這些智慧和經驗并沒有外化為知識庫作為長期的知識沉淀。本文提出了一種自動從海量數據中自動學習不良詞語“替代”關系和“共現”關系的方法,并將學習到的關系構成不良關鍵詞知識庫,借助知識庫可實現不良信息到關鍵詞策略的自動轉化。具體地,本文應用大數據認知計算中的機器學習技術對文本進行自動分類,模型選擇包含詞嵌入層、卷積層和注意力層的神經網絡模型。在模型訓練完畢后,可根據模型預測階段得到的神經網絡權重反推顯著的不良詞語“替代”和“共現”關系特征。將這些關系形成知識庫可幫助策略制訂和管理人員自動地完成從不良信息到關鍵詞策略的高質量轉化。
4 應用場景3——垃圾消息變體詞自動發現
4.1 問題背景
隨著運營商對垃圾消息的持續治理,垃圾消息發送者開始在消息中引入大量變體關鍵詞,以規避關鍵詞審查。變體關鍵詞將敏感關鍵詞中的字用同音字、形近字、拼音或拼音首字母、特殊符號等方式進行替換。不同于其他關鍵詞,變體關鍵詞幾乎不會在正常消息中出現,因此及時準確發現變體關鍵詞,并制訂關鍵詞策略可以高效、準確地實現變體垃圾消息攔截。
通常一個敏感關鍵詞可以衍生出數十種甚至上百種變體,且變體會隨時間不斷變化。只有及時了解敏感關鍵詞變體的發展變化情況,才能快速對最新關鍵詞變體進行響應。但采用人工總結的方式很難實現上述目標,需要使用大數據認知計算技術自動分析海量垃圾信息,并理解和推斷出其中包含的變體關鍵詞。
具體地,在給定一條變體垃圾信息時,首先需要使用深度學習技術對變體垃圾信息的本體進行智能還原。該過程同時考慮變體消息中每個字的發音、字形和所處上下文,對每個字是否需要還原進行判斷,若需要還原,則自動給出還原結果。如“菠菜網站”是“博彩網站”常用的變體消息,“菠菜”是否要還原為“博彩”首先要看“菠菜”本身的發音,其次還需要看其后面是否為“網站”。
在對變體消息進行還原后,可對還原后的消息進行敏感詞分析,并在變體中反推出敏感詞變體。如還原后,信息中“充值”可能在變體信息中是“沖值”,那么“沖值”為“充值”的變體關鍵詞。通過分析海量變體消息,可以總結大量變體關鍵詞,這些關鍵詞大多不會在正常消息中出現,故可以將其配置為關鍵詞策略以進行消息攔截。如策略“(枰邰|坪邰|評苔|蘋苔|坪苔|呯邰)”配置了“平臺”這個關鍵詞的各種變體。消息中只要包含其中一個變體,則會被立刻攔截。
4.2 基于大數據認知計算的解決方案
變體關鍵詞推斷的靈感來源于拼音輸入法的實現方法。在拼音輸入法中,給定拼音序列,輸入法可以給出拼音序列對應的最可能的中文句子。在拼音輸入法功能中,拼音序列中每一個拼音最終對應輸出的一個文字。這是一個典型的序列到序列的映射學習問題。可以使用LSTM、Transformer等深度學習模型實現映射學習。由于Transformer模型可以更好地處理長距離依賴關系,本文選用Transformer模型。具體地,Transformer可以從拼音序列中任何有幫助的位置來推斷當前拼音對應的文字,其變體還原能力比LSTM更強,這種長距離拼音的推理對于變體還原任務非常重要,會直接影響變體還原的效果。
在給定變體消息時,首先將變體消息轉換為拼音序列,再通過深度神經網絡推理最可能的原始消息內容。通過對比還原后的消息與變體消息的差異,可以鎖定消息中出現的變體關鍵詞。變體消息中可能會有特殊符號,需要為特殊符號分配相應的發音。如給“+”分配發音“jia”。當特殊符號的發音不易確定時,可為其分配一個唯一的虛擬發音,如給“/”分配虛擬發音“zxg”(即“左斜杠”的拼音首字母,虛擬發音可任意指定)。同時,在變體消息中還會出現拼音本身或英文縮寫,可以在轉換拼音序列時直接保留,不做轉換。
當消息中的關鍵詞變體為同音變體時,將消息轉化為拼音序列后,同音文字變體差異被消除,其完全轉化為從拼音序列推測文本內容的任務,因此推測識別率較高。但當變體關鍵詞為形近變體時,變體關鍵詞的發音有可能與原始關鍵詞不同,會干擾模型的推理。
為了解決這一問題,可以通過向輸入拼音中加入智能干擾的方式增強模型的還原能力。此時,輸入拼音序列中每個元素不再是一個拼音,而是多個拼音。其中一個拼音為正確拼音,其他拼音為干擾拼音。在訓練模型時,可完全將不帶變體關鍵詞的消息作為訓練數據,消息本身是模型期望的輸出,消息的輸入為帶智能干擾的拼音序列。具體的智能干擾方式如下。
針對消息中的每一個字,需要生成n個拼音。其中一個拼音是該字本身的發音,其余拼音有如下生成規則:當該字有形近字,且拼音與該字不同時,則加入形近字的拼音,可以加入多個;當該字有相似的特殊符號可以表示時,加入特殊符號的拼音。如果上述兩種干擾拼音都加入后仍不足n個,則考慮隨機加入拼音。在模型進行預測時,可將輸入變體消息的第一個字轉為形近字拼音和特殊字符拼音,若不足n個拼音,則加入一個空拼音,使隨機干擾盡可能變小。綜上所述,通過在訓練時增加更多隨機干擾,模型可以在預測時有更強的還原能力。通過在預測時僅加入文字本身、形近字和形近特殊字符發音,不加入隨機發音,可讓模型專注于對這幾類變體進行推理。
圖5所示為一個對Transformer網絡進行改造得到的變體消息還原網絡。與標準Transformer網絡不同,該網絡在多頭自注意力模塊與嵌入層之間加入了拼音融合層。該層主要將干擾發音疊加到原始發音之上,使Transformer網絡能夠學習對抗這種干擾發音的疊加。
圖5???基于Transformer網絡的變體消息還原網絡
4.3 實踐案例
圖6所示為變體還原模型對6條真實垃圾消息的還原結果。其中,第1條消息中的“蕞篙”被成功恢復為“最高”,屬于同音和形近字雙重變體復原;第4條消息中的“筷③”被成功恢復為“快三”,包含了特殊字符的變體復原;第4條消息中的“蟬遰”被成功恢復為“單帶”,屬于形近不同音變體的復原。由此可見,模型能夠支持對形近、同音、特殊字符變體的復原。
圖6???使用真實變體垃圾信息還原效果示例
表1為從圖6的變體垃圾信息中自動提取的變體詞列表。變體詞通過對還原后的文本進行分詞后反推而得。其中大部分變體詞是同音變體詞,這也符合真實的垃圾信息使用變體的情況。變體還原模型同時考慮了變體詞的發音和其形近字的發音,故能夠有效地對這些變體進行還原。此外,這些變體詞在正常消息中幾乎不可能出現,故可將這些變體詞配置為關鍵詞策略用于對變體垃圾信息進行快速攔截。
實踐證明,使用變體還原模型可有效地還原垃圾消息中的大部分變體。通過比較還原前后的文本,可以快速定位敏感關鍵詞的變體。通過該方法可迅速構建出不良關鍵詞變體庫,基于變體詞庫輸出的變體關鍵詞策略在實際應用中一周可以識別和攔截數十萬條變體垃圾信息,有效地解決了變體垃圾消息的漏攔問題。
綜上所述,變體垃圾信息對垃圾信息的識別造成了巨大干擾,一些變體甚至可能會迷惑人的審核判斷。本文利用大數據認知計算技術中的機器學習技術學習拼音序列到文字序列的正確轉化。
5 應用場景4——不良域名擬態拓展
5.1 問題背景
開設賭博、色情網站在國內屬于違法行為,因此不良網站的服務器通常不在國內,運營商無法對服務器直接進行處理,僅能對服務器的域名進行封堵。不良網站創建者為了規避封堵風險,會集中生成一批風格相近的域名,一些域名一旦被封,立刻切換域名,并不影響用戶訪問。
目前運營商發現不良域名的方法是分析用戶訪問域名本身是否具有不良特征、對應網站中的文本和圖片信息是否包含敏感內容等。這些方法多是在用戶發生訪問行為后再進行網站識別的。一方面訪問網站的事實已經發生,已經造成了一定的不良影響;另一方面封堵時并沒有考慮被封網站可能有備用域名的問題,封堵不徹底。
一些有經驗的不良網站審核員可以通過被封堵的不良網站域名規律推測出其他未知的不良網站域名,這樣可以在網絡中還沒有出現用戶訪問該域名的記錄的前提下發現這些不良網站,如已知“xx991.com”和“xx993.com”是不良域名,則很可能“992xx.com”也是一個不良域名。這些不良網站的規律千差萬別,采用人工的方式很難全面總結。需要使用認知計算技術自動學習已知的不良網站域名特征,并自動模仿不良域名的表現形態,舉一反三,生成形態相似的潛在不良域名。具體地,此過程主要涉及使用深度學習技術幫助人們自動學習和理解海量不良網站域名的格式特征、字符關聯、字符與數字的組合特點,并根據學到的規則自動創造全新的符合規則的潛在不良域名。通過對生成的潛在不良域名進行內容分析,最終確認未知不良網站。
5.2 基于大數據認知計算的解決方案
為了實現不良網站的擬態拓展能力,可以使用雙向LSTM模型對已知不良網站的構成特征進行學習。具體訓練步驟是在給定不良網站域名中的任意n個字符后,預測不良網站域名的下一個字符。若模型能夠在給定任意已知域名的任意n個連續字符后,都可以準確預測下一個字符,則代表模型已經充分學習了已知不良域名的字符構成特征,就可以進行相同形態域名的智能生成。
雙向LSTM生成域名的過程如圖7所示。在生成一個域名時,首先向模型中輸入n個空字符(圖7中為10個),則模型會輸出域名的第一個字符,接下來將模型剛輸出的字符加入輸入,則輸入變為n-1個空字符和最新輸出的字符。將該輸入再輸入模型,模型會繼續輸出下一個字符。依此類推,不斷將模型輸出的字符加入輸入中,則輸入一直保存最近模型輸出的連續n個字符,并不斷輸出下一個字符,直到輸出空字符為止。此時一個域名生成完畢。
圖7???雙向LSTM生成域名的過程示意圖
采用上述生成方法雖然可以得到形態相似的域名,但生成的域名較大概率為已知不良域名本身。為了讓模型在模擬形態的基礎上發揮自身的創造力,可以在生成下一個字符的過程中加入一些隨機性,即并不總是選擇推測概率最大的字符作為輸出字符,而是按照推測的各種字符的出現概率進行隨機選擇,如圖7所示。
除了使用雙向LSTM模型,很多文本生成模型也可以完成域名生成的任務,數據的訓練方法和文本的生成方法與雙向LSTM模型相同。如許曉泓等人使用Transformer模型完成從數據到文本的生成過程;Pawade D等人使用字級別的RNN-LSTM生成文本;錢揖麗等人提出了基于句子級LSTM編碼的文本標題生成模型等。由于域名結構相對簡單和簡短,不太可能出現字符之間的長距離依賴,故采用雙向LSTM已經足夠實現域名的擬態拓展。
5.3 實踐案例
從訓練數據中找到所有包含“av”和“zy”兩種模式的不良域名,并在模型生成的不良域名中尋找上述兩種特征,可以分析模型如何利用訓練數據中的模式拓展生成域名。
圖8為雙向LSTM模型的訓練數據模式與拓展數據模式。為了避免傳播不良網站域名,圖8中對不良網站域名進行了模糊化處理,“#”代表任意一個數字,“*”代表任意一個字符。如圖8所示,雙向LSTM模型不但可以模仿訓練數據中的已有模式,還可以創造更多全新的域名模式。按照這些域名模式可以發現更多不良網站。將被確認為不良網站的域名新模式加入訓練數據中,可以加強LSTM對新不良模式的學習,如此循環可以形成一個不良域名特征自動學習更新拓展的閉環。
圖8???雙向LSTM模型的訓練數據模式與拓展數據模式
研究發現,使用不良域名擬態拓展能力學習3 000個不良域名后,每生成10 000個不良域名,平均有大約18個域名是重復的,重復率為0.18%。通過使用爬蟲進行內容驗證,發現平均有2 032個域名是真實存在的,平均有876個域名為真實的不良域名。從生成域名到最終發現不良域名,轉化率大約為8.76%。將不良域名擬態拓展能力應用于實際工作中,每天可以發現上千個活躍的未知色情、賭博類網站,使不良網站的封堵更加主動、徹底、高效。
綜上所述,不良網站通常會注冊風格相似的域名。人為觀察已有不良域名特征預測未知不良域名工作量巨大,且僅能進行小范圍的嘗試。本文利用大數據認知計算技術中的自然語言生成能力,將域名信息看作一種自然語言,使用LSTM模型對海量不良域名構建語言模型,并實現了模仿不良域名特征拓展生成全新不良域名的能力。實踐證明,該算法能夠發現大量未知的不良域名,實現了不良域名的主動發現、事前發現。
6 結束語
通信運營商在進行內容安全管控的過程中遇到了諸多需要進行海量數據分析理解的問題。在使用大數據認知計算前,這些任務多采用人工分析的方法,數據處理能力有限,治理效率不高。大數據認知計算技術可以幫助安全管控人員分析理解海量數據,發現更多不良信息,大幅提高不良信息的治理效率。本文從不良文本線下分析的兩個目的入手,總結了大數據認知計算在詐騙信息識別與易感人群發現、不良關鍵詞知識庫構建、垃圾消息變體詞自動發現、不良域名擬態拓展4個內容安全領域的創新性實踐。
上述大數據創新實踐方案有效地使用大數據認知計算替代了人工,幫助人們理解海量不良信息的關鍵內容,大力支撐了內容安全管控工作。實踐研究證明,本文提出的應用方案能夠幫助內容安全管控人員快速響應最新不良信息,全面有效提升整體管控質量。
作者簡介
杜雪濤(1973-),女,中國移動通信集團設計院有限公司網絡規劃與設計優化研發中心網信安全產品部教授級高級工程師,主要從事網絡與信息安全研究工作。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的大数据认知计算在内容安全管控中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SI 和 DI 寄存器的区别
- 下一篇: java ssm框架 缓存_SSM框架之