一文详解 | 开放搜索兼容Elasticsearch做召回引擎
簡介:開放搜索發(fā)布開源兼容版,支持阿里云Elasticsearch做搜索召回引擎,本文詳細(xì)介紹阿里云ES用戶如何通過接入開放搜索兼容版豐富行業(yè)分詞庫,提升查詢語義理解能力,無需開發(fā)、算法投入,即可獲得淘系同款搜索效果。
開放搜索開源兼容版簡介
很多客戶在搭建搜索業(yè)務(wù)時(shí)更熟悉開源技術(shù)棧,會(huì)選擇Elasticsearch/Solr等開源引擎負(fù)責(zé)搜索的召回環(huán)節(jié),然而在召回引擎以外訓(xùn)練NLP、排序等算法能力,不僅耗時(shí)耗力,而且大部分處于高投入低回報(bào)的狀態(tài)。
開放搜索開源兼容版的Elasticsearch引擎則是基于阿里巴巴在搜索領(lǐng)域的積累,開放搜索的Elasticsearch引擎實(shí)例作為一個(gè)阿里云Elasticsearch的插件,運(yùn)行在用戶的阿里云Elasticsearch集群中,提供阿里自研行業(yè)分詞能力、Query分析理解能力,從而減少了用戶對(duì)算法模塊的投入,可以將更多精力投入到業(yè)務(wù)轉(zhuǎn)化、產(chǎn)品功能等需求上。
業(yè)務(wù)流程圖:
開放搜索兼容版優(yōu)勢(shì)
- 基于阿里巴巴多年詞庫積累及達(dá)摩院NLP技術(shù),豐富Elasticsearch開源引擎分詞庫,提升搜索效果;
在通用分詞基礎(chǔ)上還增加行業(yè)分詞能力,可覆蓋電商、IT內(nèi)容、教育、游戲、互娛等行業(yè)。
- 賦予Elasticsearch引擎Query理解能力,精準(zhǔn)定位用戶搜索意圖;
通過對(duì)Query進(jìn)行一系列智能語義分析(拼寫糾錯(cuò)、同義詞改寫、詞權(quán)重、停用詞、實(shí)體識(shí)別)理解用戶搜索意圖,改寫用戶搜索Query,使召回結(jié)果更符合需求;
- 提供自定義分詞、查詢分析干預(yù)詞典的能力,在開放搜索控制臺(tái)配置后會(huì)即使生效
用戶可根據(jù)自身業(yè)務(wù)進(jìn)行調(diào)整和優(yōu)化,高效響應(yīng)搜索需求,提升搜索效果和用戶體驗(yàn);
開源兼容版ES引擎實(shí)例創(chuàng)建及配置
一、創(chuàng)建Elasticsearch引擎實(shí)例
1.登錄開放搜索控制臺(tái),并進(jìn)入實(shí)例管理-Elasticsearch引擎頁面,點(diǎn)擊創(chuàng)建應(yīng)用:
2.頁面會(huì)跳轉(zhuǎn)至Elasticsearch搜索增強(qiáng)版售賣頁,選擇創(chuàng)建應(yīng)用需要的商量類型、地域,填寫好應(yīng)用名稱,選擇資源組,最后點(diǎn)擊立即購買即可:
3.創(chuàng)建成功后,即可在實(shí)例管理-Elasticsearch引擎頁面查看新創(chuàng)建的應(yīng)用實(shí)例:
二、配置Elasticsearch引擎實(shí)例
配置應(yīng)用包含關(guān)聯(lián)阿里云Elasticsearch實(shí)例、安裝插件、配置完成三步:
三、Elasticsearch引擎實(shí)例搜索測(cè)試
了解更多詳細(xì)配置內(nèi)容,查看產(chǎn)品文檔:開源兼容版實(shí)例 - 智能開放搜索 OpenSearch - 阿里云
客戶案例
某新零售客戶,打造1公里社區(qū)網(wǎng)店服務(wù),為用戶提供吃、喝、玩、樂一體化生活服務(wù)。
客戶搜索業(yè)務(wù)痛點(diǎn)
- 自建搜索效果差,搜不準(zhǔn)、搜不到直接影響用戶體驗(yàn);
- 缺乏行業(yè)分詞庫,自研難度大,開發(fā)周期長,難以響應(yīng)業(yè)務(wù)需求;
- 成熟的搜索引擎涉及離線模塊、在線模塊、查詢理解服務(wù)、算法平臺(tái)等系統(tǒng)組成,所需大量開發(fā)、算法調(diào)優(yōu)以及持續(xù)的復(fù)雜運(yùn)維工作,自建成本高;
開源兼容版解決方案
集成淘寶搜索同款電商分詞器,訓(xùn)練語料來自淘寶搜索多年積累的百萬級(jí)有標(biāo)注的電商行業(yè)數(shù)據(jù),可準(zhǔn)確識(shí)別商品品牌、品類、產(chǎn)品特性等電商屬性query;
- 電商拼寫糾錯(cuò)
用戶輸入的query并不總是正確的,錯(cuò)誤的輸入可能導(dǎo)致查詢結(jié)果不符合預(yù)期或者是無結(jié)果,因此需要對(duì)用戶的輸入進(jìn)行拼寫檢查。OpenSearch的查詢分析中提供的拼寫檢查功能,對(duì)查詢?cè)~中的錯(cuò)誤進(jìn)行糾正,給出正確的查詢?cè)~。并根據(jù)糾錯(cuò)的可信度高低,決定當(dāng)前查詢是否用糾錯(cuò)后的詞進(jìn)行查詢。
- 電商同義詞
同義詞功能主要是對(duì)查詢?cè)~進(jìn)行同義擴(kuò)展,擴(kuò)大召回和查詢?cè)~同義的文檔。
- 電商實(shí)體識(shí)別
全稱命名實(shí)體識(shí)別(Named Entity Recognition,簡稱NER),指對(duì)查詢?cè)~中的具有特定意義的語義實(shí)體進(jìn)行識(shí)別。查詢分析根據(jù)識(shí)別的結(jié)果,依據(jù)實(shí)體類型的權(quán)重對(duì)查詢?cè)~進(jìn)行改寫,使得召回的文檔符合查詢的意圖。
效果反饋
無需額外投入人力資源,在不改變現(xiàn)有ES使用習(xí)慣情況下,從了解到測(cè)試到接入上線短短15天就獲得高質(zhì)量搜索效果,企業(yè)有更多資源精力投入到產(chǎn)品功能和業(yè)務(wù)提升中去。
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的一文详解 | 开放搜索兼容Elasticsearch做召回引擎的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GRPC: 如何优雅关闭进程(grace
- 下一篇: 技术解析:一文看懂 Anolis OS