阿里来了位技术新童鞋,一秒K.O八位律师
阿里妹導(dǎo)讀:批改作文、同聲翻譯、制作海報……人工智能技術(shù)已經(jīng)越來越多地運用在我們的日常生活中。而在法務(wù)領(lǐng)域,除了國外LawGeex在多個法務(wù)領(lǐng)域的應(yīng)用外,目前在國內(nèi)暫無成熟運作產(chǎn)品。
最近,阿里巴巴信息平臺企業(yè)數(shù)據(jù)智能部的工程師們,悄悄解鎖了這項成就。下面我們一起來看看。
AI與法務(wù),會擦出怎樣的火花?
日前在阿里巴巴內(nèi)部,進行了這樣一場特殊的“比賽”。600份在線協(xié)議,8位專業(yè)律師用了一周時間完成審核,而人工智能僅用時1秒,并且在這600份協(xié)議中,標記出的問題準確率達到100%。
這是阿里巴巴信息平臺企業(yè)數(shù)據(jù)智能部的工程師們,自主研發(fā)的智能合同診斷系統(tǒng),用AI代替法務(wù)進行互聯(lián)網(wǎng)在線協(xié)議的審核工作。究竟AI在法務(wù)領(lǐng)域如何運用?背后有哪些技術(shù)原理?以下是我們給出的解決方案。
背景
互聯(lián)網(wǎng)背景下的消費者權(quán)益保護成為大眾關(guān)注的新焦點。這其中就包括了客戶服務(wù)協(xié)議、用戶隱私協(xié)議等消費者與運營商簽署的互聯(lián)網(wǎng)在線協(xié)議問題。阿里巴巴因為業(yè)務(wù)線眾多,對于此類協(xié)議的審查與更新工作更是一項龐大工程。
目前人工審核一份在線協(xié)議的平均時長在30分鐘左右,并且由于文字量大、規(guī)則多,人工檢查不可能100%覆蓋,人工審核標準不夠統(tǒng)一。有沒有可能讓AI來代替法務(wù)進行審核工作?在這樣的背景下,智能合同診斷系統(tǒng)上線了。
這套智能合同診斷系統(tǒng)主要做兩件事,一是判斷出不該出現(xiàn)的內(nèi)容(如:違反法律法規(guī)的違禁詞、侵犯消費者權(quán)限的條款、模糊表述等);二是判斷哪些是原本應(yīng)該出現(xiàn)的內(nèi)容,并給出修改建議或推薦用詞。
智能合同診斷系統(tǒng)檢查出風險點,并給出推薦表述
看似簡單,但實際在系統(tǒng)學(xué)習過程中卻困難重重:
1、法律語言表達和自然語言的差異性
目前普遍在做的NLP應(yīng)用,大部分是基于自然語言進行處理。例如社交網(wǎng)絡(luò)語言,更加接近人們對話的用語表達。而法律用語和自然語言用語之間存在較大差異,法律語言通常有其特定領(lǐng)域的表達規(guī)范和邏輯,和我們通常的自然語言表述有較大差異。這就導(dǎo)致了現(xiàn)有的研究成果無法直接應(yīng)用于法務(wù)領(lǐng)域,需要做特定領(lǐng)域的遷移。
2、技術(shù)和業(yè)務(wù)場景的鴻溝
如果不具備法務(wù)法律領(lǐng)域相關(guān)知識基礎(chǔ),有好的NLP技術(shù)也不一定能在法務(wù)領(lǐng)域落地。能夠?qū)⒎▌?wù)領(lǐng)域需求抽象并和技術(shù)相結(jié)合,具有很大挑戰(zhàn),需要跨領(lǐng)域人才和多領(lǐng)域人才密切配合。
3、標注數(shù)據(jù)的稀缺性
在法務(wù)領(lǐng)域,數(shù)據(jù)十分稀缺,而且往往涉及到敏感信息和商業(yè)機密,導(dǎo)致了數(shù)據(jù)無法共享。有些場景僅有少量標注數(shù)據(jù)。
4、較高的準確性要求
法務(wù)領(lǐng)域?qū)λ惴ㄖ笜艘筝^高,特別有些場景對算法的召回率有嚴格要求,因為一旦漏掉關(guān)鍵信息有可能造成較大的法律風險;此外,法務(wù)很多場景對算法可解釋性要求較高,因此算法不但要知其然還要知其所以然。
?
解決方案
在搭建系統(tǒng)時,第一步就是針對法務(wù)領(lǐng)域建立行業(yè)詞庫和知識圖譜。
只有首先教會系統(tǒng)理解法律術(shù)語,而不是自然語言,接下來才能更好訓(xùn)練系統(tǒng)去理解法律概念。基于阿里巴巴大量的在線協(xié)議、合同、訴訟等各種法律文書,采用大規(guī)模無監(jiān)督的短語挖掘方法 Phrase Mining[1,2] 能自動從文書中提取出行業(yè)關(guān)聯(lián)度較強的短語,例如:“包括但不限于”、“授權(quán)委托書”、“過失侵權(quán)行為”等;
同時,法務(wù)專家會根據(jù)特定業(yè)務(wù)場景梳理出業(yè)務(wù)規(guī)則,比如在在線協(xié)議領(lǐng)域,就標注出一份禁止用語清單,以及出現(xiàn)相關(guān)禁用語的對應(yīng)推薦詞可供機器學(xué)習。比如:“一經(jīng)公告、立即生效”的推薦表述為“公告之后的7日后生效”等。針對大量這些法務(wù)規(guī)則輸入,從技術(shù)角度解析為知識圖譜上的點,變?yōu)橛嬎銠C可以處理的格式。
?
詞的向量表示
基于大規(guī)模訓(xùn)練的通用詞向量幾乎對所有NLP任務(wù)都有顯著幫助。而針對法務(wù)領(lǐng)域而言,由于有其特定的領(lǐng)域特性,我們在通用的詞向量基礎(chǔ)上,加入了大量法務(wù)領(lǐng)域文書的語料,使得學(xué)習到的詞向量在法務(wù)領(lǐng)域表現(xiàn)更為突出。
普通的詞向量模型大多采用 Word2Vec 或者 GloVe 訓(xùn)練得到,最近的一項研究[3]發(fā)現(xiàn)基于 context 的詞向量 ELMo 能夠進一步提升幫助多個NLP 任務(wù)。
基于context的詞向量本質(zhì)是語言模型的詞向量,詞向量不僅僅是詞本身的函數(shù),也同時是句子里面其他詞以及序列位置的函數(shù)。在法務(wù)領(lǐng)域中我們也嘗試了ELMo 語言模型得到詞向量,提升了模型性能。
?
冷啟動和快速樣本標注
標注數(shù)據(jù)一直是機器學(xué)習問題最重要的要素之一,只有擁有了大量標注數(shù)據(jù)才能訓(xùn)練得到比較好的模型。然而在法務(wù)領(lǐng)域,標注數(shù)據(jù)的獲取是非常昂貴的,需要具備法律專業(yè)的人士進行標注。
為了取得效率和成本的權(quán)衡,我們首先基于專家輸入的規(guī)則和知識圖譜,構(gòu)建了基于規(guī)則系統(tǒng)的自動標注服務(wù),能夠?qū)Υ媪繑?shù)據(jù)進行自動打標。另一方面,可以替換關(guān)鍵詞,自動生成標注數(shù)據(jù)。例如:“一經(jīng)公告、立即生效”,可以將“立即”替換為“立刻”、“立馬”、“即刻”等,通過這種方式可以生成大量的標注數(shù)據(jù)。
主動學(xué)習。規(guī)則畢竟是有限的,雖然可以解決一部分問題,但是無法解決模型的泛化能力,最終還是需要依賴一部分人工標注。為了減少人工標注成本,可以采用主動學(xué)習方法。每次僅需要人工標注最不確定的那些少量樣本就可以很大程度提升模型的性能。
多模型組合
文本分類技術(shù)也經(jīng)歷了從傳統(tǒng)基于規(guī)則、人工特征到目前基于深度學(xué)習的技術(shù)演變過程。目前比較流行的技術(shù)方案是基于RNN的序列模型、基于CNN的模型,以及在此基礎(chǔ)上演化而來的各種變種,比如結(jié)合注意力(attention)機制,用預(yù)訓(xùn)練的詞嵌入(Word Embedding)等方法。
在法務(wù)垂直領(lǐng)域中,我們利用 ELMo 構(gòu)建了領(lǐng)域特性的詞向量作為模型的輸入,針對在線協(xié)議審查這一具體問題設(shè)計了一種結(jié)合CNN和RNN的深度神經(jīng)網(wǎng)絡(luò):C-GRU模型。不僅充分捕捉了核心詞與周圍詞的關(guān)系,也解決了長句依賴問題。
深度學(xué)習模型雖然能較好解決違規(guī)表述的分類問題,但是由于模型對于用戶而言是黑盒,可解釋性差。在線協(xié)議智能審核不僅要找到違規(guī)的條款表述,還需要定位到具體哪些詞語引起的,以及需要改成什么樣的才是推薦的表述。
因此我們的最終方案采取深度學(xué)習模型負責高召回,將所有可能產(chǎn)生違規(guī)表述的條款檢測出來。然后采用句法分析和規(guī)則方法對條款進行解析,定位到具體違規(guī)表述的位置和推薦表達。這種方案的優(yōu)點是利用深度學(xué)習提高召回率,用規(guī)則進行精確定位。
?
目前在線協(xié)議AI診斷系統(tǒng)除了極大提升協(xié)議審核效率,實現(xiàn)秒級審核速度,平均準確率在94%以上,每年相當于節(jié)省130人日的工作量。
?
未來規(guī)劃
近年來,以深度學(xué)習和自然語言處理為代表的人工智能技術(shù)取得巨大突破,也開始在法律智能領(lǐng)域嶄露頭角,受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。智能合同診斷只是我們在智能法務(wù)領(lǐng)域的第一步探索,除此之外,更多在合同、訴訟文書以及裁決文書上的工作正在進行中。
?
在技術(shù)上,我們進一步和阿里巴巴機器智能技術(shù)(MIT) 合作共建,加強在行業(yè)知識圖譜構(gòu)建、機器閱讀理解以及信息抽取技術(shù)在法律領(lǐng)域應(yīng)用的研究與探索。沉淀法律領(lǐng)域基礎(chǔ)數(shù)據(jù)資源,構(gòu)建領(lǐng)域特點的自然語言處理平臺,共同服務(wù)于多樣化的法律業(yè)務(wù)中。
?
除了自然語言處理技術(shù)之外,我們還會在音視頻技術(shù)上加大投入,如圖像識別,光學(xué)字符識別(OCR)、手寫字符識別、ASR等。用于處理不同類型的法律材料,解決自然語言處理上游多源信息輸入問題。我們的最終目標是構(gòu)建全鏈路全能力的法務(wù)AI能力。
相信法務(wù)AI能力的建設(shè)和完善能夠服務(wù)于廣大普通用戶、律師、法院等法律行業(yè)從業(yè)者。
阿里巴巴信息平臺事業(yè)部-企業(yè)數(shù)據(jù)智能團隊,集數(shù)據(jù),算法,產(chǎn)品為一體,擁有文本,運籌,視覺等多類別AI能力,通過發(fā)掘數(shù)據(jù)內(nèi)在價值,提升企業(yè)智能化管理水平。
團隊成員曾活躍于TREC QA Track,LFW(Labeled Faces in the Wild),ACM/ICPC等各大賽事,博士占比25%。
歡迎更多勇于挑戰(zhàn)的算法牛人加入我們,一起發(fā)現(xiàn)數(shù)據(jù)之美,構(gòu)建企業(yè)大腦。
?
點擊信息平臺事業(yè)部即可查看招聘崗位具體信息,投遞簡歷。
參考文獻:
[1] El-Kishky et al., 2014, Scalable Topical PhraseMining from Text Corpora
[2] Liu et al., 2015, Mining Quality Phrases from MassiveText Corpora
[3] Matthew E. Peters,?Mark Neumann,?Mohit Iyyer,?Matt Gardner,?Christopher Clark,?Kenton Lee,?Luke Zettlemoyer. DEEP CONTEXTUALIZEDWORD REPRESENTATIONS. ICLR'18
總結(jié)
以上是生活随笔為你收集整理的阿里来了位技术新童鞋,一秒K.O八位律师的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 可怕!那些你看不到的进程
- 下一篇: 工程狮爸爸如何准备儿童节礼物?
