从上千篇论文脱颖而出,支付宝论文凭什么获得WWW2020评委认可?
簡(jiǎn)介:?螞蟻金服有多篇論文入選國(guó)際頂級(jí)學(xué)術(shù)會(huì)議WWW2020,圍繞智能服務(wù)、認(rèn)知計(jì)算等課題,向行業(yè)分享自身沉淀的金融智能應(yīng)用成果。
2020年4月20-24日,國(guó)際頂級(jí)學(xué)術(shù)會(huì)議WWW2020(The Web Conference 2020)在中國(guó)臺(tái)灣舉辦。創(chuàng)辦于1994年的WWW會(huì)議,是CCF-A類會(huì)議,每年有大批的學(xué)者、研究人員、技術(shù)專家、政策制定者等參與。
據(jù)悉,受COVID-19疫情影響,WWW2020將在線上舉行。此次會(huì)議共收到了1129篇論文投稿,錄用217篇,錄取率僅為19.2%。其中螞蟻金服有多篇論文入選,圍繞智能服務(wù)、認(rèn)知計(jì)算等課題,向行業(yè)分享自身沉淀的金融智能應(yīng)用成果。
更多內(nèi)容:點(diǎn)擊這里?
事實(shí)上,螞蟻金服一直是國(guó)際頂級(jí)學(xué)術(shù)會(huì)議的“常客”。除了WWW,螞蟻金服也多次亮相NeurIPS、ICML、ICLR、AAAI、IJCAI、SIGIR、NAACL、VLDB、ACM T-IST、KDD、CVPR 等國(guó)際頂級(jí)學(xué)術(shù)會(huì)議,為學(xué)界帶來了諸多結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景的創(chuàng)新研究和應(yīng)用。對(duì)螞蟻金服而言,在頂級(jí)學(xué)術(shù)會(huì)議上發(fā)布論文,一方面可推進(jìn)人工智能最前沿研究的發(fā)展,將學(xué)術(shù)研究與應(yīng)用相結(jié)合,另一方面可推進(jìn)前沿技術(shù)從研究到實(shí)際應(yīng)用中落地,為用戶帶來價(jià)值,為我們的生活服務(wù)帶來改變。
接下來,小螞蟻將為大家重點(diǎn)介紹本次螞蟻金服入選的論文成果。
Enhanced-RCNN: 一種高效的比較句子相似性的方法
句子相似度計(jì)算,是貫穿智能客服離線、在線和運(yùn)營(yíng)等幾乎所有環(huán)節(jié)最核心的技術(shù),同時(shí)也是自然語言理解中最核心的問題之一,廣泛應(yīng)用于搜索、推薦、對(duì)話等領(lǐng)域。當(dāng)前比較句子相似性的方法主要分為3種:表示型(Siamese Network Framework)、交互型(Matching-Aggregation Framework)和預(yù)訓(xùn)練語言模型(Pre-trainedLanguage Model)。
在本篇論文中,我們提出了一種新型高效的比較句子相似性的方法 Enhanced-RCNN,來更好的捕捉待比較的兩個(gè)文本自身以及相互之間的信息。這是我們?cè)诮?jīng)典文本匹配模型 ESIM的基礎(chǔ)上改進(jìn)的模型,該模型在 Quora Question Pair 和 Ant Financial 兩個(gè)公開的文本匹配數(shù)據(jù)集上均取得了非常有競(jìng)爭(zhēng)力的結(jié)果,并且和時(shí)下火熱的預(yù)訓(xùn)練語言模型 BERT 相比,Enhanced-RCNN 也取得了相當(dāng)?shù)男Ч?#xff0c;其中參數(shù)量相比BERT-Base 也大幅減少,較為適合用于線上部署使用。同時(shí),通過一些知識(shí)蒸餾的方法(KnowledgeDistillation),也可以將Enhanced-RCNN作為學(xué)生模型(Student Model)去學(xué)習(xí)BERT-Base,即老師模型,來進(jìn)一步提升原有Enhanced-RCNN模型的預(yù)測(cè)準(zhǔn)確率。
IntentDial: An Intent Graph based Multi-Turn Dialogue System with Reasoning Path Visualization(基于意圖圖譜的路徑推斷可視化多輪對(duì)話系統(tǒng))
在一般智能問答系統(tǒng)中,常見的形式是:用戶提出問題,系統(tǒng)識(shí)別用戶意圖并給出回答或者引導(dǎo)解決。其中正確理解識(shí)別用戶問題的意圖十分重要,正常情況下我們可將這一識(shí)別過程當(dāng)作是一個(gè)分類任務(wù)處理,用深度神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練預(yù)測(cè)。其中在我們構(gòu)建意圖庫(kù)的時(shí)候,我們將收集用戶最真實(shí)的意圖并對(duì)應(yīng)提供解決方案,對(duì)于用戶描述清晰完備的情況下,我們可在意圖庫(kù)中找到一個(gè)對(duì)應(yīng)的意圖,而事實(shí)上在一些較復(fù)雜的問題上,部分用戶在表達(dá)意圖時(shí),能一次性將所有信息表訴完備是較困難的,此時(shí)則需要和用戶進(jìn)一步進(jìn)行多輪QA從而定位用戶意圖。
本論文中,螞蟻金服工程師創(chuàng)新性在智能問答中結(jié)合圖譜結(jié)構(gòu)和強(qiáng)化學(xué)習(xí)進(jìn)行建模,(1)通過引入圖譜結(jié)構(gòu),可將問答相關(guān)的領(lǐng)域先驗(yàn)知識(shí)引入模型訓(xùn)練,加速?gòu)?qiáng)化學(xué)習(xí)模型收斂,同時(shí)模型結(jié)果為當(dāng)前上下文獲得的圖譜路徑推斷,可解釋性高,一方面可用于指導(dǎo)分析模型訓(xùn)練過程中出現(xiàn)的問題,另一方面路徑推斷中的要素節(jié)點(diǎn)可作為實(shí)體識(shí)別結(jié)果用于對(duì)話其他模塊。(2)通過采取該多輪對(duì)話方式,可以有效同時(shí)解決對(duì)話過程中用戶描述清晰和模糊的情況,擴(kuò)展性高。
A Generic Solver Combining Unsupervised Learning and Representation Learning for Breaking Text-Based Captchas(基于自監(jiān)督表征學(xué)習(xí)的驗(yàn)證碼識(shí)別方法)
隨著互聯(lián)網(wǎng)的高速發(fā)展,越來越多的自動(dòng)化破解程序給網(wǎng)絡(luò)安全帶來不小的挑戰(zhàn)。驗(yàn)證碼以其簡(jiǎn)單高效的特征,目前已經(jīng)成為了互聯(lián)網(wǎng)安全的基本保障程序。雖然當(dāng)前已經(jīng)有許多可供選擇的驗(yàn)證碼方案,但由于用戶偏好和易于設(shè)計(jì)的特性,基于文本的驗(yàn)證碼類型仍然是維護(hù)互聯(lián)網(wǎng)安全和防止惡意攻擊的最流行的安全機(jī)制之一。而文本驗(yàn)證碼的安全特征對(duì)驗(yàn)證碼安全性方面起著十分重要的作用,因此作為學(xué)術(shù)研究去自動(dòng)識(shí)別破解文本驗(yàn)證碼,可以發(fā)現(xiàn)現(xiàn)有驗(yàn)證碼所存在的漏洞,有利于網(wǎng)站開發(fā)人員設(shè)計(jì)出更加安全的驗(yàn)證碼體系,保障網(wǎng)絡(luò)安全。
在過去的十多年里,人們已經(jīng)提出了多種驗(yàn)證碼破解方法,其中許多方法需要針對(duì)不同的驗(yàn)證碼類型使用獨(dú)特的濾波和分割方法來實(shí)現(xiàn)字符識(shí)別,這類方法的泛化性較差,且需要過多的人工參與。隨著更復(fù)雜的安全特性被引入到文本驗(yàn)證碼中,這些方法也不再適用。而一些基于深度學(xué)習(xí)的驗(yàn)證碼識(shí)別算法在準(zhǔn)確性上取得了顯著的提高,但這些方法的主要問題是需要大規(guī)模的帶有標(biāo)簽的訓(xùn)練樣本參與訓(xùn)練,而這通常需要耗費(fèi)大量的人工成本。
大規(guī)模帶有標(biāo)簽驗(yàn)證碼圖像難以收集,但是無標(biāo)簽的圖像樣本卻是很容易大量采集得到。在深度學(xué)習(xí)領(lǐng)域中,無監(jiān)督學(xué)習(xí)和表征學(xué)習(xí)都可以減少對(duì)于標(biāo)簽樣本的依賴,充分利用無標(biāo)簽數(shù)據(jù)樣本去學(xué)習(xí)數(shù)據(jù)表征,提升深度學(xué)習(xí)方法的性能。我們通過設(shè)計(jì)了一個(gè)結(jié)合無監(jiān)督學(xué)習(xí)和表征學(xué)習(xí)的驗(yàn)證碼識(shí)別方案,在不依賴人工參與和大規(guī)模帶標(biāo)簽訓(xùn)練樣本的前提下,實(shí)現(xiàn)文本驗(yàn)證碼的自動(dòng)識(shí)別。經(jīng)過實(shí)驗(yàn)測(cè)試發(fā)現(xiàn),我們的方法僅僅使用500張帶有標(biāo)簽的訓(xùn)練樣本就可以破解大多數(shù)主流網(wǎng)站的驗(yàn)證碼,這也說明了目前文本驗(yàn)證碼的部分安全特征很容易破解。通過我們所提出的方法可以發(fā)現(xiàn)現(xiàn)有驗(yàn)證碼的漏洞,并且分析不同安全特征的有效性,從而開發(fā)出更安全可靠的驗(yàn)證碼。
Solving Billion-Scale Knapsack Problems(求解億級(jí)變量背包問題)
背包問題 (knapsack problem) 是經(jīng)典的整數(shù)規(guī)劃問題,求解如何從多個(gè)物品中選取一個(gè)子集放入背包,在容量限制下最大化子集的效用。互聯(lián)網(wǎng)場(chǎng)景下很多問題可以看成超大規(guī)模的背包問題或者它的變種問題,比如紅包營(yíng)銷,用戶流量分配等,都有某種總資源的限制,需要在大量的用戶粒度的決策中選取一個(gè)子集來最大化業(yè)務(wù)收益。由于背包問題是 NP-hard,求解復(fù)雜度高,所以精確算法無法做較大規(guī)模的求解。而近似類算法對(duì)問題的形式化有具體要求,實(shí)際業(yè)務(wù)的需求一般不會(huì)嚴(yán)格符合背包問題的定義,所以需要求解算法有更強(qiáng)的泛化性和通用性。因此,如何在高精度下求解超大規(guī)模背包問題及其變種問題仍然是一個(gè)挑戰(zhàn)。
螞蟻金服的工作是最早做到對(duì)億級(jí)變量的背包問題求解工作之一。我們的問題形式化涵蓋了互聯(lián)網(wǎng)海量數(shù)據(jù)場(chǎng)景下的泛化背包問題。它的“物品”有兩個(gè)維度:用戶和選項(xiàng),即“為每位用戶選擇哪些選項(xiàng)”。它的“背包容量”擴(kuò)展到了多個(gè)維度,即每個(gè)用戶的每個(gè)選項(xiàng)可以消耗多個(gè)不同的資源。同時(shí)我們還支持對(duì)每個(gè)用戶的選項(xiàng)做任意整數(shù)規(guī)劃的約束。
用于圖像檢索的等距離等分布三元組損失函數(shù)
圖像檢索由于類內(nèi)差異大、類間相似性高,非常具有挑戰(zhàn)性。深度度量學(xué)習(xí)在該任務(wù)上取得了一定的效果。然而,最為經(jīng)典的深度度量學(xué)習(xí)損失函數(shù)——三元組損失,存在一定的問題。首先,三元組損失約束了匹配對(duì)和不匹配對(duì)間的距離差異至少為一個(gè)固定間隔值,由于沒有直接約束匹配對(duì)或者不匹配對(duì)的距離,使得局部范圍內(nèi)三元組滿足間隔約束時(shí)不能保證全局范圍內(nèi)也滿足。其次,改進(jìn)的三元組損失進(jìn)一步約束所有匹配對(duì)距離小于某個(gè)固定值以及所有不匹配對(duì)的距離大于某個(gè)固定值,這種固定值約束沒有考慮到圖像不同類別的獨(dú)特性,容易造成特征空間扭曲。因此,為了在全局范圍內(nèi)進(jìn)一步拉近匹配對(duì)的距離和推遠(yuǎn)不匹配對(duì)的距離,在三元組損失的間隔約束基礎(chǔ)上,我們針對(duì)匹配對(duì)和不匹配對(duì)分別進(jìn)行了相對(duì)距離約束。
在本篇論文中,螞蟻金服工程師提出了EET方法,通過等距離約束進(jìn)一步拉近匹配對(duì)的距離,等分布約束進(jìn)一步推遠(yuǎn)不匹配對(duì)的距離,最終實(shí)驗(yàn)結(jié)果亦表明該方法可以用在多個(gè)檢索任務(wù)上。
總結(jié)
以上是生活随笔為你收集整理的从上千篇论文脱颖而出,支付宝论文凭什么获得WWW2020评委认可?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 揭秘MySQL生态重要功能,X-Engi
- 下一篇: 什么是医疗物联网(IoMT)?