直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类
一個(gè)審核員一天只能審核5000條文本信息,而在線的UGC資訊網(wǎng)站往往平均一個(gè)小時(shí)接收的文本信息可能超過百萬條。與此同時(shí),還需要將雜亂的內(nèi)容進(jìn)行分類并發(fā)布到不同的專欄頁面……信息爆炸的時(shí)代,海量信息的處理能力對(duì)各大互聯(lián)網(wǎng)平臺(tái)來說是核心競爭力之一。
如何運(yùn)用AI技術(shù)處理海量內(nèi)容并能真正捕捉高價(jià)值信息,也是目前企業(yè)持續(xù)探索的領(lǐng)域。
從內(nèi)容的生產(chǎn)到發(fā)布流程復(fù)雜且人工效率低
維持資訊類or內(nèi)容類網(wǎng)站需要大量的文本、圖片、視頻等信息,信息來源包括:用戶自生產(chǎn)、平臺(tái)自運(yùn)營、網(wǎng)站爬取等各種方式。
雜亂的標(biāo)題信息
海量信息處理需求VS效率低的人力審核分類,可想而知,很多優(yōu)質(zhì)或時(shí)效性極強(qiáng)的內(nèi)容與大眾擦肩而過。
資訊內(nèi)容快速增長需要借助AI提供高效的信息處理手段
某企業(yè)主要經(jīng)營新聞資訊網(wǎng)站,伴隨業(yè)務(wù)及用戶體量增長,網(wǎng)站需要對(duì)審核完成的文章快速發(fā)布到不同的專欄,如政治、財(cái)經(jīng)、文化、娛樂等,但僅憑人力是無法完成這一訴求。
企業(yè)前期也在嘗試組建算法團(tuán)隊(duì)通過傳統(tǒng)AI開發(fā)方式進(jìn)行開發(fā),但很快發(fā)現(xiàn)需要克服的問題很多
如何降低業(yè)務(wù)探索階段的成本投入?
模型訓(xùn)練依賴數(shù)據(jù),網(wǎng)站標(biāo)題內(nèi)容覆蓋廣數(shù)量大,如何高效完成數(shù)據(jù)處理?
網(wǎng)站文章標(biāo)題種類多、語義復(fù)雜,如何能確保訓(xùn)練模型的精度效果?
高日活的網(wǎng)站,對(duì)預(yù)測時(shí)延要求高,AI自動(dòng)文本分類能達(dá)到預(yù)期效果嗎?
帶著這些疑問,新聞資訊網(wǎng)站的技術(shù)負(fù)責(zé)人接觸到了飛槳EasyDL,結(jié)合對(duì)文章標(biāo)題的處理邏輯,選擇適用的任務(wù)類型-文本分類。
最終實(shí)現(xiàn)10000條文本信息使用智能標(biāo)注僅耗時(shí)1小時(shí),同時(shí)零代碼訓(xùn)練出精確率達(dá)到90%以上的可用模型,快速投入網(wǎng)站文本處理中。
從原本需要成本達(dá)百萬級(jí)的算法投入,到現(xiàn)在零開發(fā)成本;從原本需要1年開發(fā)周期才可能上線AI自動(dòng)文本分類到現(xiàn)在僅用3個(gè)月完成AI模型開發(fā)及完整方案上線……這些成果讓該新聞資訊網(wǎng)站快速實(shí)現(xiàn)了AI高效處理信息的業(yè)務(wù)模式。
基于文心大模型底座你也可以實(shí)現(xiàn)高精度AI模型訴求
該新聞資訊網(wǎng)站之所以能夠利用EasyDL快速實(shí)現(xiàn)文本自動(dòng)分類,背后依賴百度飛槳文心·NLP大模型的技術(shù)加持。
通過內(nèi)置文心大模型底座的高精度算法,用戶可以完成復(fù)雜場景的高精度模型訓(xùn)練,比如上述提到的案例中網(wǎng)站標(biāo)題繁多且語法不統(tǒng)一的問題,就可迎刃而解。
同時(shí),無需準(zhǔn)備大量數(shù)據(jù)集也可獲得高精度的模型投入實(shí)際應(yīng)用。
文心大模型能夠同時(shí)從大規(guī)模知識(shí)和海量多元數(shù)據(jù)中持續(xù)學(xué)習(xí),如同站在巨人的肩膀上,訓(xùn)練效率和理解準(zhǔn)確率都得到大幅提升。
文心大模型的優(yōu)勢
內(nèi)置百度飛槳文心·NLP大模型的EasyDL零門檻AI開發(fā)平臺(tái),提供更加便捷的一站式AI開發(fā)能力,數(shù)據(jù)標(biāo)注、模型訓(xùn)練、服務(wù)部署都可以在一個(gè)平臺(tái)簡單并連貫地實(shí)現(xiàn)。AI模型訓(xùn)練環(huán)節(jié)不需要編寫代碼,也不需要深度學(xué)習(xí)的算法背景,就能輕松完成。
4月12日晚20:00—21:00,AI快車道-評(píng)論觀點(diǎn)抽取專場公開課,將深入探討各行業(yè)網(wǎng)站運(yùn)營趨勢及痛點(diǎn),剖析AI賦能下的平臺(tái)智能化轉(zhuǎn)型升級(jí)突破口。
直播中為大家準(zhǔn)備了諸多飛槳EasyDL落地案例:新聞資訊平臺(tái)、政務(wù)服務(wù)平臺(tái)、電商平臺(tái)的AI實(shí)踐經(jīng)驗(yàn),或許從案例中你會(huì)收獲更多靈感。
不止如此,我們還帶來了3天實(shí)訓(xùn)打卡營,手把手帶你快速啟動(dòng)自己的評(píng)論觀點(diǎn)抽取AI模型。掃碼立即報(bào)名,NLP業(yè)務(wù)應(yīng)用時(shí)不我待~
掃碼報(bào)名直播課,加入行業(yè)交流群
👇
關(guān)注【飛槳PaddlePaddle】公眾號(hào)
獲取更多技術(shù)內(nèi)容~
總結(jié)
以上是生活随笔為你收集整理的直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 飞桨 AI Studio 课程学习 可以
- 下一篇: 由点及面,专有云ABC Stack如何护