全球最强大脑在哪?阿里小蜜算法团队在寻找
阿里妹導(dǎo)讀:阿里小蜜的算法專家們最近在意大利都靈籌備一場(chǎng)國(guó)際數(shù)據(jù)挖掘競(jìng)賽。這場(chǎng)競(jìng)賽的名字叫CIKM AnalytiCup,是全球著名的公開(kāi)、公正的大數(shù)據(jù)開(kāi)放式競(jìng)賽。
去年,這場(chǎng)比賽是與阿里云、深圳氣象局合辦,最終選手們成功建立降水預(yù)報(bào)模型,其中最好成績(jī)?yōu)镽MSE10.997,比主辦方提供的標(biāo)準(zhǔn)線提高了25%,大幅提高了短期降水預(yù)報(bào)的準(zhǔn)確性。今年,CIKM再次與阿里巴巴集團(tuán)攜手,與阿里小蜜團(tuán)隊(duì)一起舉辦本次競(jìng)賽。
?
阿里小蜜是什么?
?
阿里小蜜是阿里巴巴集團(tuán)智能服務(wù)事業(yè)部旗下的面向電商領(lǐng)域的服務(wù)機(jī)器人。阿里小蜜所在的智能服務(wù)事業(yè)部,致力于以體驗(yàn)為核心,通過(guò)人工智能算法,以數(shù)據(jù)和技術(shù)為驅(qū)動(dòng),提升用戶的服務(wù)體驗(yàn)以及解決問(wèn)題的效率。目前圍繞著智能對(duì)話、智能輔助、智能決策、智能管理4大核心體系通過(guò)人工智能技術(shù)全面賦能客戶,引領(lǐng)服務(wù)的智能化升級(jí)。在2017年,阿里小蜜家族產(chǎn)品通過(guò)自然語(yǔ)言處理、知識(shí)圖譜、深度學(xué)習(xí)等技術(shù)引領(lǐng)阿里小蜜從阿里走向行業(yè),從中國(guó)走向國(guó)際,圍繞這商家生態(tài)圈及阿里云生態(tài)圈,賦能數(shù)百萬(wàn)商家和全球中小企業(yè),覆蓋了英語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、印尼語(yǔ)、泰語(yǔ)等多個(gè)國(guó)家和地區(qū)。
阿里小蜜吉祥物
在過(guò)去的一年中,阿里小蜜團(tuán)隊(duì)已經(jīng)在文本匹配及遷移學(xué)習(xí)兩個(gè)方向上做了很多工作,不僅在工業(yè)界落地,真實(shí)服務(wù)消費(fèi)者,而且在一些重要的國(guó)際會(huì)議上,如ACL、WSDM、CIKM等,發(fā)表了多篇論文。例如在2018的WSDM上,我們提出了一個(gè)文本匹配模型的遷移學(xué)習(xí)框架,嘗試解決了同種語(yǔ)言下的文本匹配模型的冷啟動(dòng)問(wèn)題。
?
為什么會(huì)選擇“跨語(yǔ)言短文本匹配算法”相關(guān)賽題?
?
隨著人工智能時(shí)代的到來(lái),大數(shù)據(jù)和算法成為了互聯(lián)網(wǎng)企業(yè)發(fā)展的兩個(gè)重要驅(qū)動(dòng)力。作為人工智能重要的落地場(chǎng)景之一,以聊天機(jī)器人出現(xiàn)的智能服務(wù)系統(tǒng),為企業(yè)減少大量勞動(dòng)力的同時(shí),也對(duì)提升用戶體驗(yàn)具有重要意義。因此在過(guò)去幾年中,聊天機(jī)器人成為了商業(yè)公司重金投入的熱點(diǎn)。從微軟小冰、亞馬遜的Echo等到各種垂直行業(yè)的客服機(jī)器人,聊天機(jī)器人蓬勃發(fā)展,形態(tài)各異,又不乏共性。阿里小蜜正是阿里巴巴集團(tuán)圍繞電商領(lǐng)域構(gòu)建的超級(jí)個(gè)人助理,不僅可以解決用戶的各種信息咨詢類(lèi)問(wèn)題,也可以幫助用戶挑選商品,為用戶訂購(gòu)機(jī)票等任務(wù)。
?
根據(jù)應(yīng)答產(chǎn)生的方式,聊天機(jī)器人可以分為檢索式、生成式或者混合式。在檢索式的聊天機(jī)器人中,文本匹配模型是至關(guān)重要的一個(gè)模塊,決定了聊天機(jī)器人解決用戶問(wèn)題的能力。文本匹配模型接受一個(gè)用戶的問(wèn)題,在FAQ數(shù)據(jù)集上尋找一個(gè)匹配的問(wèn)答對(duì),并將人工編寫(xiě)的答案回傳給用戶。為了構(gòu)建一個(gè)文本匹配模型,不僅需要人工收集一個(gè)稱之為FAQ(Frequently Asked Questions)的數(shù)據(jù)集,同時(shí)也需要人工標(biāo)注一批用戶問(wèn)題與FAQ中問(wèn)答對(duì)的匹配語(yǔ)料,用于訓(xùn)練模型。然而這種情況在一些小語(yǔ)種中不太現(xiàn)實(shí),一方面缺乏相應(yīng)的標(biāo)注語(yǔ)料,另一方面了解小語(yǔ)種的NLP研發(fā)人員很稀少,這兩個(gè)方面都限制了聊天機(jī)器人的研發(fā)。
阿里巴巴集團(tuán)在去年開(kāi)始明顯加快了國(guó)際化的進(jìn)程,不僅通過(guò)速賣(mài)通(AliExpress)覆蓋了俄羅斯、西班牙等120多個(gè)國(guó)家和地區(qū),而且還在不同地區(qū)收購(gòu)或投資了當(dāng)?shù)氐碾娚唐髽I(yè),比如收購(gòu)了東南亞地區(qū)最大的電商Lazada,在印度地區(qū)投資了Paytm等。
?
未來(lái),阿里巴巴集團(tuán)將為20億用戶提供服務(wù)。在這樣一個(gè)背景下,作為阿里集團(tuán)內(nèi)最大的服務(wù)團(tuán)隊(duì),在服務(wù)好國(guó)內(nèi)消費(fèi)者的前提下,也需要思考如何服務(wù)好國(guó)外的消費(fèi)者,其中就包括使用技術(shù)手段解決消費(fèi)者的服務(wù)咨詢類(lèi)問(wèn)題。然而,現(xiàn)有的技術(shù)手段需要大量的標(biāo)注數(shù)據(jù),以幫助深度學(xué)習(xí)或機(jī)器學(xué)習(xí)系統(tǒng)訓(xùn)練出有效的模型。但一些小語(yǔ)種(如印尼語(yǔ)、泰語(yǔ)、菲律賓語(yǔ)等)不僅缺乏大規(guī)模的標(biāo)注數(shù)據(jù),而且相應(yīng)的算法研發(fā)人員也相當(dāng)匱乏。如何為使用這些語(yǔ)種的國(guó)家和地區(qū)的消費(fèi)者提供高質(zhì)量的服務(wù),將是對(duì)算法人員很大的挑戰(zhàn)。因此我們?cè)O(shè)計(jì)了這種一個(gè)題目,希望將數(shù)據(jù)資源豐富的語(yǔ)言理解能力遷移到資源匱乏的語(yǔ)言上。
?
期待你的參與
?
通過(guò)本次比賽,我們不僅希望為學(xué)術(shù)界拋磚引玉,貢獻(xiàn)一個(gè)在真實(shí)場(chǎng)景中需要面對(duì)解決的問(wèn)題,而且希望有更多的優(yōu)秀選手參與比賽,共同幫助我們提升聊天機(jī)器人的能力。未來(lái),對(duì)于消費(fèi)者,他們可以自由地選擇語(yǔ)言,不管是使用官方語(yǔ)言(如英語(yǔ))還是使用日常用語(yǔ)(如印尼語(yǔ)等小語(yǔ)種),都將得到高質(zhì)量的服務(wù)。
?
在這項(xiàng)比賽中,為了使參賽人員關(guān)注于語(yǔ)言本身的特性及遷移能力上,我們做了一些限制,比如不要過(guò)分關(guān)注于機(jī)器翻譯技術(shù)等。這些限制,本質(zhì)上是為了回歸問(wèn)題本身,而不是利用外部的能力。在此之外,參賽人員可以發(fā)揮想象力和創(chuàng)造力,提出各種模型和解決方案。
?
本次大賽將向全社會(huì)開(kāi)放,我們期待來(lái)自高等院校、科研單位、互聯(lián)網(wǎng)企業(yè)等算法工程師,在這個(gè)舞臺(tái)大展身手。
?
點(diǎn)擊CIKM AnalytiCup 2018,進(jìn)入阿里天池平臺(tái)了解大賽詳情、報(bào)名。
總結(jié)
以上是生活随笔為你收集整理的全球最强大脑在哪?阿里小蜜算法团队在寻找的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: 阿里Java高考卷来了,你能得几分?
- 下一篇: 重磅!阿里开源自研语音识别模型DFSMN
