阿里云峰会 | AI搜题加速在线教育行业场景创新
分享人:徐光偉(昆卡) 阿里巴巴達(dá)摩院算法專(zhuān)家
了解更多解決方案詳情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch
搜索是在線教育企業(yè)流量獲取的利器
截至2020年12月份教育行業(yè)月活TOP10的統(tǒng)計(jì),其中具備搜題能力的軟件多達(dá)5個(gè),拍照搜題作為產(chǎn)品能力,可以幫助客戶獲取大量用戶以及流量,從而為其他產(chǎn)品提供變現(xiàn)能力,正是由于這樣定位,拍照搜題整體準(zhǔn)確性和搜索效率都成為至關(guān)重要的一點(diǎn),所以開(kāi)放搜索對(duì)此做了很多訂制優(yōu)化。
教育搜題業(yè)務(wù)特點(diǎn)
對(duì)于教育搜題業(yè)務(wù)場(chǎng)景歸納了三大特點(diǎn):
第一點(diǎn)海量題庫(kù),教育題庫(kù)都是屬于千萬(wàn)級(jí)別甚至到億級(jí)別,而且不斷的持續(xù)增長(zhǎng);同時(shí)搜題業(yè)務(wù)存在很明顯的高峰現(xiàn)象,例如晚上七八點(diǎn),節(jié)假日最后一天,這時(shí)搜題會(huì)存在非常高的QPS的波峰;搜索延遲會(huì)嚴(yán)重影響用戶的體驗(yàn)。
第二點(diǎn)場(chǎng)景豐富,拍照搜題涵蓋的場(chǎng)景越來(lái)越豐富,包括不同的年齡段,例如低年級(jí)搜題主要圍繞拍照看圖識(shí)字或連線題,需要更多的圖片信息的題目;還包括不同的學(xué)科,目前支持的學(xué)科多達(dá)十多種,因此豐富的場(chǎng)景就會(huì)對(duì)搜索效果帶來(lái)更大的挑戰(zhàn)。
第三點(diǎn)算法需求,拍照搜題產(chǎn)品形態(tài)一般只會(huì)展現(xiàn)TOP3或者TOP5的結(jié)果,正是因?yàn)檫@樣設(shè)定,準(zhǔn)確性對(duì)于拍照搜題來(lái)說(shuō)至關(guān)重要,同時(shí)拍照搜題還會(huì)涉及到多模態(tài)和多語(yǔ)言處理能力,解決圖文搜索和多語(yǔ)言處理的需求。
開(kāi)放搜索教育搜題方案架構(gòu)
阿里云開(kāi)放搜索的拍照搜題解決方案,當(dāng)用戶通過(guò)拍照經(jīng)過(guò)OCR識(shí)別之后的文本,經(jīng)過(guò)開(kāi)放搜索引擎處理后會(huì)返回TOP3-5的結(jié)果給用戶得到展示,并且針對(duì)企業(yè)題庫(kù)數(shù)據(jù)嚴(yán)格保證數(shù)據(jù)的安全和隱私。
教育搜題算法能力
查詢分析算法優(yōu)化完整的處理流程
教育行業(yè)分詞和學(xué)科類(lèi)目預(yù)測(cè)
分詞在拍照搜題場(chǎng)景下存在兩大難點(diǎn),第一點(diǎn)英文題目OCR識(shí)別之后空格缺失,左邊第一個(gè)圖可以看到,即便針對(duì)很長(zhǎng)沒(méi)有空格的英文文本,模型也是可以非常準(zhǔn)確的做正確的切分。第二個(gè)難點(diǎn)是數(shù)學(xué)題目公式表示之后的切分,左邊第二個(gè)圖可以看到數(shù)學(xué)符號(hào)部分都做出正確的切分。
類(lèi)目預(yù)測(cè)在拍照搜題場(chǎng)景下對(duì)應(yīng)的就是學(xué)科的預(yù)測(cè)和題型的預(yù)測(cè),我們結(jié)合圖片以及OCR識(shí)別之后的文本信息做多模態(tài)預(yù)測(cè),從而提高搜題準(zhǔn)確率。
多路召回排序技術(shù)
由于拍照搜題業(yè)務(wù)場(chǎng)景的特殊性,開(kāi)放搜索還引入了多路召回排序技術(shù)。
為什么要做多路召回呢?
教育拍照搜題相比傳統(tǒng)的網(wǎng)頁(yè)或者電商的搜索存在明顯的差異,第一點(diǎn)是搜索的Query特別長(zhǎng),第二點(diǎn)是搜索的Query由拍照OCR識(shí)別之后得到的文本,其中關(guān)鍵TERM識(shí)別錯(cuò)誤的話,就會(huì)嚴(yán)重影響召回排序。
傳統(tǒng)的純文本查詢方案包括兩種,第一種是OR邏輯查詢,第二種AND邏輯查詢,AND邏輯查詢上基于我們剛才說(shuō)到的針對(duì)教育領(lǐng)域優(yōu)化定制的Query模塊分析之后大幅提高效果,現(xiàn)在可以做到準(zhǔn)確性接近OR邏輯。
如何兼顧搜索計(jì)算開(kāi)銷(xiāo)以及搜索的準(zhǔn)確率呢?
引入了文本的向量召回,對(duì)文本向量召回技術(shù)優(yōu)化了三點(diǎn),
第一點(diǎn)是其中的BERT模型我們采用達(dá)摩院自研的StructBERT,并針對(duì)于教育行業(yè)做了定制,同時(shí)對(duì)BERT模型做壓縮加速。
第二點(diǎn)是向量檢索引擎采用達(dá)摩院自研的Proxma引擎,準(zhǔn)確性和速度都超越開(kāi)源系統(tǒng)。
第三點(diǎn)訓(xùn)練數(shù)據(jù)可以基于客戶的搜索日志不斷積累,效果持續(xù)提升。
從右邊的圖可以看到,最終我們?cè)诨趦蓚?cè)的BERT模型就可以達(dá)到非常好的效果,準(zhǔn)確性超過(guò)OR邏輯3%—5%,整體召回DOC數(shù)量減少40倍,Latecy降低10倍以上。
搜題效果展示
舉例兩個(gè)具體搜題的case,左邊這個(gè)case可以看到其中因?yàn)閱?wèn)題中的文字描述和題庫(kù)中文字描述不一致,傳統(tǒng)搜索引擎返回的結(jié)果相關(guān)性極差,經(jīng)過(guò)我們引入語(yǔ)意向量召回之后右邊TOP3結(jié)果完全符合題意。第二個(gè)case因?yàn)檫@個(gè)題目中包含圖片的信息,傳統(tǒng)的搜索引擎無(wú)法做到準(zhǔn)確的召回,基于我們多路召回引入圖象信息之后TOP1返回完全一致的題目。
開(kāi)放搜索解決方案優(yōu)勢(shì)
案例一:某K12的教育用戶,用戶數(shù)達(dá)到千萬(wàn)級(jí)別,題庫(kù)量在八千萬(wàn)左右而且在持續(xù)增加,客戶接入開(kāi)放搜索之后返回搜題準(zhǔn)確率提升45%,延遲降到50%毫秒。
案例二:某高職教育客戶,產(chǎn)品DAU三百萬(wàn),月活一千萬(wàn),客戶接入之后反饋對(duì)比他們?cè)茸越ǖ南到y(tǒng),在高峰時(shí)候耗時(shí)大于兩秒,現(xiàn)在開(kāi)放搜索可以穩(wěn)定在50毫秒,同比下降40倍。TOP5題目搜索準(zhǔn)確率提升2.4%搜索結(jié)果從原來(lái)40%降到不到1%,業(yè)務(wù)高峰期可以實(shí)現(xiàn)秒級(jí)平滑擴(kuò)容。
獲得專(zhuān)家指導(dǎo):
https://survey.aliyun.com/apps/zhiliao/6R4u6vilI
原文鏈接:https://developer.aliyun.com/article/784459?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開(kāi)發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《阿里云開(kāi)發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開(kāi)發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫(xiě)侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的阿里云峰会 | AI搜题加速在线教育行业场景创新的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里云弹性计算产品负责人:让客户用上本地
- 下一篇: Flink Forward Global