安利几个优质NLP开源项目!搜索、问答、情感分析…
自然語言處理技術在各行業有著廣泛的應用,然而長久以來,其落地并不是一帆風順的。
針對這些棘手的問題,百度飛槳深耕產業界,選取NLP領域三大高頻場景——檢索、問答、情感分析,推出面向真實應用場景的系統功能,覆蓋金融、電商零售、文娛、旅游、房地產、生活服務等多個行業,萬方、榮耀、國美、驢媽媽旅游網、房天下、食行生鮮等均已基于相關方案成功完成業務上線。
語義檢索系統
檢索系統存在于人們日常使用的很多產品中,比如商品搜索、學術文獻檢索、通用搜索引擎等。傳統方法匹配能力有限,只能捕捉字面匹配,而語義檢索能夠捕捉深層語義信息,達到更精準、更廣泛地召回相似結果的目的。
圖:基于字面的稀疏向量檢索 vs 基于語義的稠密向量檢索
PaddleNLP本次推出語義檢索系統,流程圖如下,其中左側為召回環節,核心是語義向量抽取模型;右側是排序環節,核心是排序模型。
圖:PaddleNLP Neural Search語義檢索系統流程圖
具備三大亮點:
低門檻:數據+代碼+模型全部開源,無需標注數據也能夠輕松構建起檢索系統,并且提供訓練、預測、近似最近鄰(ANN)搜索一站式能力。
精度高:結合業界前沿模型和自有創新思路,推出適用多種數據情況、靈活的技術方案,精度超高。
表:不同技術方案下的Recall@K指標
性能好:與開源向量數據庫Milvus打通,結合Paddle Inference,實現高性能建庫,并在千萬級數據中做到毫秒級快速查詢。
圖:文獻檢索示例
前往GitHub獲取開源代碼和模型:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search
預訓練時代的端到端問答 -?RocketQA
問答系統是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶提出的問題,問答系統廣泛應用于搜索引擎、智能設備、智能客服等產品中。
圖:問答系統應用示例
傳統的問答系統通常由多個模塊級聯組成,而在預訓練時代我們可以用一個端到端模型代替傳統的復雜系統,實現更好的效果。然而,研發端到端問答模型需要大量的計算和數據資源,為了使更多開發者能方便地獲取最先進的問答技術,我們推出了RocketQA開發工具,有三大亮點:
領先:提供國際領先的端到端問答技術-RocketQA,效果遠超傳統問答系統,與國際知名公司的技術方案相比也有一定優勢。
中文:開源首個中文端到端問答模型,該模型基于知識增強的預訓練模型ERNIE和百萬量級的人工標注數據集DuReader訓練得到,效果優異。
易用:提供11種預置模型、2種安裝方式和極簡的開發接口,?基于神經搜索框架JINA和近似近鄰檢索庫FAISS,2行命令即可搭建自己的問答系統。
前往GitHub獲取開源代碼和模型:
https://github.com/PaddlePaddle/RocketQA
情感分析系統?
情感分析旨在對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理,其廣泛應用于消費決策、輿情分析、個性化推薦等領域,具有很高的商業價值。
依托百度領先的情感分析技術,食行生鮮自動生成菜品評論標簽輔助用戶購買,并指導運營采購部門調整選品和促銷策略;房天下向購房者和開發商直觀展示樓盤的用戶口碑情況,并對好評樓盤置頂推薦;國美搭建服務智能化評分系統,客服運營成本減少40%,負面反饋處理率100%。
為了降低技術門檻,方便開發者共享效果領先的情感分析技術,PaddleNLP本次開源的情感分析系統,具備三大亮點:
覆蓋任務全:集成句子級情感分類、評論觀點抽取、屬性級情感分類等多種情感分析能力,并開源模型,且打通模型訓練、評估、預測部署全流程。
圖:PaddleNLP Sentiment Analysis核心能力展示
效果領先:集成百度研發的基于情感知識增強的預訓練模型SKEP,為各類情感分析任務提供統一且強大的情感語義表示能力。
預測性能強:針對預訓練模型預測效率低的問題,開源小模型PP-MiniLM,配套裁剪、量化優化策略,預測性能提速900%!
前往GitHub獲取開源代碼和模型:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis
如果您想了解詳細技術方案和完整代碼、下載開源數據和模型,歡迎關注GitHub Repo,也可在直播中與百度高工交流哦:
PaddleNLP:?https://github.com/PaddlePaddle/PaddleNLP
RocketQA:?https://github.com/PaddlePaddle/RocketQA
直播預告課
12.28~12.30日每晚20:15~21:30,百度高工將帶來直播講解,剖析行業痛點問題,深入解讀系統方案,并帶來手把手項目實戰。閱讀原文即可報名,或者掃碼上車!我們直播間不見不散~
掃碼報名直播課,加入技術交流群
更多精彩搶先看
總結
以上是生活随笔為你收集整理的安利几个优质NLP开源项目!搜索、问答、情感分析…的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 惊呆!不用一张图片,却训出个图像识别SO
- 下一篇: 实话实说:中文自然语言处理的N个真实情况