Elasticsearch生态技术峰会 | Elasticsearch在企查查的应用实践
簡介:?開源最大的特征就是開放性,云生態則讓開源技術更具開放性與創造性,Elastic 與阿里云的合作正是開源與云生態共生共榮的典范。值此合作三周年之際,我們邀請業界資深人士相聚云端,共話云上Elasticsearch生態與技術的未來。
開源最大的特征就是開放性,云生態則讓開源技術更具開放性與創造性,Elastic 與阿里云的合作正是開源與云生態共生共榮的典范。值此合作三周年之際,我們邀請業界資深人士相聚云端,共話云上Elasticsearch生態與技術的未來。?
?
本篇內容是企查查搜索部門經理范兆明分享的Elasticsearch在企查查的應用實踐。
分享人:企查查搜索部門經理范兆明
視頻地址:http://cloud.video.taobao.com/play/u/3177173649/p/1/e/6/t/1/297441406466.mp4
眾所周知,企查查是一家專業做工商查詢的公司,所有的業務入口都是基于查詢完成的,可以說查詢是實現企查查價值的主要入口。所以,本篇內容將介紹Elasticsearch在企查查的應用實踐。
企查查遇到阿里云ES時的狀況是,海量的數據無法存儲,存儲后的數據無法做大規模的分析,實時的用戶行為得不到到監控。基于這些痛點,讓企查查在尋找解決辦法的過程中遇到并認識了阿里云ES。通過搭建ELK日志分析平臺、日志分析、全文檢索等功能,充分的了解和熟悉了ES。
ES主要的技術革新和特點,總結而言有三個:架構天生分布式、檢索全文和結構、分析實時聚合。
架構天生分布式
ES天生的分布式架構可以通過硬件擴容的方式實現海量數據的膨脹,并且它的副本模式能夠解決數據安全問題。
?
?
檢索全文和結構
通過Lucene的倒排索引、Bm25的全文檢索和高效的結構化檢索,能夠滿足大部分搜索場景。
分析實時聚合
實時的海量聚合能力和多聚合模式能夠完成大部分分析場景。
基于以上ES的能力,最終企查查選擇了阿里云ES。那么阿里云在ES的基礎上又帶來了哪些方面的便捷呢?
?
?
優秀的NLP分詞器
阿里云ES具有優秀的NLP分詞器能力。目前主流的ES中文分詞器有IK和ANSJ等主要的幾種,企查查選擇了IK和ANSJ后,清洗了大約百萬級的基礎數據,然后導入到IK和ANSJ。通過阿里云分詞器對比了IK和ANSJ分詞器發現,基于NLP的阿里云分詞器更優秀。
區別就在于,基于NLP的阿里云分詞器可以在不同場景解析出不同的語義,完成不同分詞,所以企查查最終的解決方案是,以阿里云分詞器為主,以ANSJ分詞器為輔做了兩套分詞模式,同時應用于文檔搜索。
一站式管理和高效擴展
這兩個特點原本就是云平臺的天然優勢,這也是為什么中小企業和高速發展企業會選擇云平臺的根本原因。
企查查基于阿里云Elasticsearch設計的應用實踐,這里給大家介紹幾個核心的數據。
?
?
5000+QPS
5000+QPS是指實時峰值QPS達到每秒5000;
200+應用
200+是指目前有200個數據維度參與了實時搜索;
8TB數據
8TB是指所有實時搜索數據加起來超過8TB。
從下圖企查查的發展歷程可以發現,2014年企查查只有單一的工傷搜索維度;發展到2020年底,企查查已經超過了200多個搜索維度。快速的版本迭代、數據爆炸式的增長、爆炸式的用戶請求等等都在阿里云ES上都得到了很好的體現。因為阿里云具有足夠穩定、快速擴容、大大減少運營成本和搜索故障等特點,在這些年的發展中不斷的提升企查查的搜索體驗。
?
?
企查查的技術特點
企查查涉及到的其他技術特點跟全文檢索特點是一樣的,包括高并發、海量數據、實時聚合和分詞等特點。高并發和實時聚合也是ES所擅長的,再加上阿里云優秀的NLP分詞器,兩兩作用后讓企查查搜索體驗更優秀。
?
?
搜索的目的
我們越來越重視搜索并不斷提高搜索體驗,那么搜索需要呈現的結果是怎樣的呢?
?
?
第一個是精準搜索。顧名思義,就是把搜索詞和文本詞完全匹配的結果返回給用戶;
第二個是分詞匹配。分詞匹配是目前搜索技術的主流,也是最難實現的。難度在于,雖然有基于語義的分詞器,如基于NLP的阿里云,但仍然會有分詞異常和分詞歧義的時候。基礎數據的權重配比、清洗排序能否達到用戶預期和搜索意圖,都是長期迭代的任務。
第三個是意義搜索。意思是當用戶搜索的詞,在精準搜索和分詞搜索都沒有匹配,但實際上意義是一樣時提供的服務,比如番茄和西紅柿,或是同音字和形近字,這個時候就會需要意義搜索。意義搜索就是把同義字、同音字和形近字都反饋給搜索用戶。
第四個是意圖搜索。當用戶搜了一大段內容,但是在分詞、精準和意義搜索里都沒有辦法找到搜索結果時,就需要提取用戶搜索的核心詞, 然后用核心詞再去搜索并反饋給用戶結果。
第五個是部分匹配搜索。意思是當上述四個搜索都沒有結果的時候,需要將部分匹配出的結果反饋給用戶。
Elasticsearch還能帶來什么?
目前ES在機器學習方面做了持續迭代,可以自動發現實時數據異常,自動實現業務的實時監控。
ES可以做更深層次的數據分析,還可以將發現數據的核心詞和數據的特點推薦給搜索的用戶。
?
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的Elasticsearch生态技术峰会 | Elasticsearch在企查查的应用实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 秒懂云通信:通信圈黑话大盘点
- 下一篇: 分久必合的Lindorm传奇