柯基数据企业知识图谱落地案例分享
從一開始的Google搜索,到現在的聊天機器人、大數據風控、智能醫療、自適應教育、推薦系統,無一不跟知識圖譜相關。它在技術領域的熱度也在逐年上升。本文通過分享企業知識圖譜落地案例,以通俗易懂的方式來講解知識圖譜是如何幫助企業快速解決問題的。
1、什么是知識圖譜?
知識圖譜,如下圖所示,每個節點代表現實世界中的某個實體,它們的連邊上標記實體間的關系。
這樣,2019新型冠狀病毒感染肺炎的相關知識就以結構化的形式記錄下來。
數據角度:是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是”實體-屬性-關系”,構成網狀的知識結構,融合碎片化的信息,建立領域知識模型,挖掘復雜的關聯關系和傳遞影響,輔助智能決策。
技術角度:是一套工程技術,包括知識抽取、知識表示、知識存儲、知識推理、知識檢索、知識問答等一系列技術
(營養健康知識圖譜)
2、知識抽取
知識抽取是實現自動化構建大規模知識圖譜的重要技術,其目的在于從不同來源、不同結構的數據中進行知識提取并存入知識圖譜中。
知識抽取的概念最早在 20 世紀 70 年代后期出現于 NLP 研究領域,是指自動化地從文本中發現和抽取相關信息,并將多個文本碎片中的信息進行合并,將非結構化數據轉換為結構化數據。(如圖1)
(圖1)
知識抽取子任務(如圖2):
1、命名實體識別: 發現實體名稱,并將其進行分類
2、實體關系抽取:識別抽取實體及實體之間的關系
(圖2)
知識圖譜的數據抽取包括面向結構化數據的知識抽取、面向半結構化數據的知識抽取、面向非結構化數據的知識抽取。(如圖3)
(圖3)
面向結構化數據的知識抽取,垂直領域的知識往往來源于支撐企業內部系統的關系數據庫。
面向半結構化數據的知識抽取,是從百科數據中抽取知識。
面向非結構化數據的知識抽取,是從文本中抽取實體信息元素,包括人名、組織機構名、地理位置、時間、日期、 字符值和金額值等。
3、新冠肺炎知識圖譜智能防控解決方案
2020年,一場猝不及防的新冠肺炎病毒疫情襲來。
對于疫情防控來說,面對傳播速度如此快速的病毒,“早發現、早隔離”是最簡單有效的疫情防控手段。而知識圖譜技術可以在疫情期間,幫助各企事業單位有效的做好疫情防控工作。
案例背景:
對于疫情防控來說,尤其是像新冠病毒這樣新發病毒,疫情傳播速度快,“早發現、早隔離”是最簡單有效的疫情防控手段。理論上來講,只要找到確診病例和該病例接觸的所有人員,并對他們采取合理的治療和隔離措施,就能阻斷疫情擴散,最終隨著所有病人治愈或者死亡,疫情就可以結束。
但是現實情況是,病毒有潛伏期,在確診之前病人因為正常的工作生活需求,會接觸大量的人,這其中除了家人、同事、朋友等熟人之外,也會通過乘坐公共交通工具、購物、游玩等和陌生人產生交集,加大了病毒傳播的風險,而被感染的人又會在確診前有可能傳染給更多人,“人傳人”的擴散很容易讓感染人數呈指數級增長。因此快速準確的找到確診病例的密切接觸人員,圈定可能的擴散群體和小區,對這些人群和小區采取必要的隔離消毒措施是關鍵。
但是從國家和地方政府的角度,既要打贏疫情阻擊戰,也要考慮對經濟發展、百姓就業的沖擊程度,這也是在疫情還沒有結束的情況下各地也開始積極復工的原因,經濟行為需要人的活動,人的活動是疫情傳播的前提,兩個相互制約因素的平衡,讓各級部門的疫情防控工作更加依賴科學的決策和有力的執行。
國家在疫情防控方面也提出了要充分利用大數據、人工智能技術,加強疫情溯源和監測。在人工智能技術中,知識圖譜作為認知智能的關鍵技術可以發現數據中的關聯關系并構建網絡,基于圖結構進行分析計算的特長,為疫情防控的政府、疾控中心提供防控措施的分析提供輔助。
應用場景:
通過病人的LBS數據,同時結合政府調研的病例的家庭數據、外出、乘車、購物等數據,以確診病例為中心,結合疑似病例數據,輔助防疫人員
1、快速篩查可能的直接和間接接觸人群列表,通過電話機器人進行自動確認,分級隔離
2、查找患者傳播鏈,找到超級傳播者進行重點關注
(疫情防控知識圖譜實現精準防控業務架構)
基于知識圖譜的分析:
利用知識圖譜認知智能技術實現疫情精準防控,提高疫情防控的及時有效性,降低疫情對經濟、生活的影響。
1. 超級傳播者識別:按照世衛組織標準,將病毒傳染給十人以上的病人是超級傳播者,早期發現、及時診斷和嚴格管理超級傳播者對于傳染病的防控非常重要,所以這個分析將有助于疾病防控人員及早發現并處理。
2. 確診病例之間傳播特征分析:通過知識圖譜直觀展示確診病例之間的接觸關系,例如同住(多為家人或者酒店)、同行(公共交通工具)、購物(購物場所)、游玩(公園等游樂場所)、就醫(醫院)等。方便流行病學調查人員研判疫情傳播途徑、傳播能力,為疫情的隔離措施、公眾防護提供指導。
3. 確診病例傳播方向沖突檢測:在確診病例中,傳播途徑只能是從一個病例傳給另一個病例,不存在一個病例從兩個病例傳入的情況,即如果圖譜中發現一個病人有兩個及兩個以上入度,即可認為這個確診病例圖譜中該病人的相關傳播時序有錯誤,可以提醒流行病學調查人員進行補充調查,直到圖譜中不存在沖突的錯誤為止。
4. 疫情傳播的本地擴散分析:在疫情傳播中,可以把傳播超過2度(例如由病例1傳給病例2,由病例2傳給病例3,由病例3傳給病例4,則傳播為3度)的情況突出顯示出來,因為傳播鏈條長,顯示本地的疫情防控措施薄弱,需要本地防控部門及早發現問題,堵住漏洞。(早發現、早隔離)
5. 隔離人群和區域分析:以確診病例為中心,可以把所有接觸的人進行劃分,1度的密切接觸人,密切接觸人的2度接觸人,以及其它更多度的接觸人,可以根據疫情防控的需要對不同級別的人群采取不同的隔離措施,同時對于確認病例及1、2度接觸人所在的小區進行不同等級的消毒、防護措施。有助于精準施策,降低疫情防控對老百姓生活的影響。
基于知識圖譜的智能問答:
柯基數據聯合中國疾控中心的權威專家們聯合開發了新冠肺炎智能問答小助手。
為了提供準確可靠的智能問答服務,我們的技術人員根據一些行業相關知識進行了初步語料訓練。同時確定了可靠的新冠肺炎防控的知識來源,主要是中國疾控中心官網、中國疾控中心公眾號、健康中國公眾號、公眾防護指南、官方的診療方案等專業機構的權威發布渠道。
對這些來源的知識基于專家認可的知識分類和模型,對內容進行切分,同時借助標注以及分類,形成便于運維的標準問答對,以及知識來源的原始文章訪問或者附件形式。經過初步的知識覆蓋以后,進行模型訓練和測試,根據測試結果進行調優、語料擴充、同義詞補充、縮寫的覆蓋、標注知識的完善等。經過多輪訓練以后,達到滿意測試準確率以后,實現發布上線。
問答系統前端通過H5頁面接入到中國疾控慢病中心的公眾號,提供肺炎疫情問答的服務,可以方便向普通人群、患者、醫生各類用戶提供服務。
對上線后問答系統的運行情況進行監控,收集所有問答過程數據,對于用戶反饋不滿意以及系統無法給出答案的提問情況重點關注,通過不斷補充知識內容、優化問題答案查找,提升系統提供的問答準確度。
(新冠肺炎智能問答小助手業務架構)
(新冠肺炎智能問答小助手界面)
4、基于知識圖譜的智能客服機器人
南京柯基數據科技有限公司是一家致力于通過知識圖譜技術構建大數據關聯挖掘平臺,已幫助賽諾菲、勃林格、九陽等數十家醫藥大健康企業打通內部數據孤島,接入海量公開非結構化數據,建立關聯知識庫,將數據的價值最大化。
其中九陽集團,通過一段時間對知識圖譜平臺的應用,已從企業自身內部使用,逐漸變為商用。
(九陽健康管家界面)
(健康管家知識圖譜)
面向用戶的九陽產品知識圖譜,支持了智能客服機器人全年無休,秒級精準應答,還支持了人工坐席服務效率提升數倍,有效幫助九陽客服部門減員增效,提升用戶滿意度。未來,九陽產品知識服務中臺,還將擴展產品食譜,產品短視頻等內容服務,更好的服務于用戶,同時助力市場導購,電商客服等一線銷售崗位提高服務效率,提升成交轉化率。
(基于知識圖譜的智能客服)
5、結語
知識圖譜是一個既充滿挑戰而且非常有趣的領域。只要有正確的應用場景,對于知識圖譜所能發揮的價值還是可以期待的。我相信在未來不到2,3年時間里,知識圖譜技術會普及到各個領域當中。
總結
以上是生活随笔為你收集整理的柯基数据企业知识图谱落地案例分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java中ofd文件转pdf_OFD版式
- 下一篇: 基于51单片机GPS的导航系统设计(1)