提高软件开发、软件维护的效率和质量的利器
點擊上方藍字關(guān)注我們
提高軟件開發(fā)、軟件維護的效率和質(zhì)量的利器
SnowGraph可將知識圖譜融入機器對無結(jié)構(gòu)文本的處理過程之中,進而為復(fù)用者提供準(zhǔn)確、有效的智能問答服務(wù),從而提高軟件復(fù)用過程的效率與質(zhì)量。
北京大學(xué)的鄒艷珍副教授所在團隊提出了基于大數(shù)據(jù)的軟件項目知識圖譜構(gòu)造及問答方法,設(shè)計并實現(xiàn)了相應(yīng)的軟件項目知識圖譜構(gòu)造及智能問答平臺SnowGraph,并在Apache開源社區(qū)以及國內(nèi)著名軟件企業(yè)成功展開應(yīng)用實踐。該技術(shù)成果具有很好的通用性與可擴展性,能夠?qū)ξ磥砜赡艹霈F(xiàn)的新的知識需求、知識來源,以及知識抽取、關(guān)聯(lián)、提煉方法進行適應(yīng)與支持,有效提高了軟件項目理解和軟件復(fù)用的效率。該研究以“基于大數(shù)據(jù)的軟件項目知識圖譜構(gòu)造及問答方法”為題發(fā)表在《大數(shù)據(jù)》2021年第1期。
01 為什么要構(gòu)建軟件知識圖譜?
軟件項目在其整個生命周期中形成并積累了大量的數(shù)據(jù),如源代碼、郵件列表、缺陷報告和問答文檔等。這些數(shù)據(jù)中蘊含了規(guī)模龐大、結(jié)構(gòu)復(fù)雜、語義關(guān)聯(lián)豐富的軟件知識,能夠幫助軟件開發(fā)人員理解軟件功能,進行軟件復(fù)用。然而,組織、利用這些知識面臨著以下挑戰(zhàn):(1)軟件規(guī)模擴大引發(fā)的軟件知識爆炸問題;(2)軟件數(shù)據(jù)中蘊含的信息在多源異構(gòu)數(shù)據(jù)中呈碎片化分散的形態(tài);(3)大量信息是以無結(jié)構(gòu)文本的形式表示的,如代碼標(biāo)識符、代碼注釋、郵件、用戶手冊、缺陷描述。因此,亟需構(gòu)建一個語義關(guān)聯(lián)豐富的軟件知識圖譜。
02?取得了哪些重大突破?
針對上述問題,鄒艷珍副教授所在團隊設(shè)計并實現(xiàn)了相應(yīng)的軟件項目知識圖譜構(gòu)造及智能問答平臺SnowGraph,其系統(tǒng)框架如圖1所示。
圖1 SnowGraph平臺的系統(tǒng)框架
具體的,首先針對傳統(tǒng)軟件項目知識圖譜需要開發(fā)人員熟悉并掌握Cypher語法,人工將用戶意圖轉(zhuǎn)化為Cypher查詢語句,學(xué)習(xí)成本較高的問題,鄒艷珍副教授所在團隊提出了一種基于自然語言的知識庫/知識圖譜查詢方法。該方法能夠?qū)⒂脩舻淖匀徽Z言問句自動轉(zhuǎn)化為Cypher形式化查詢語句,有效支持了面向軟件項目知識圖譜的自然語言問答,降低了開發(fā)人員的學(xué)習(xí)成本。然后提出了融合代碼知識的智能問答方法,借助軟件項目的知識圖譜來計算不同單詞之間的潛在語義相關(guān)度,從而對候選文本集合進行篩選與評估,返回更準(zhǔn)確的答案。與現(xiàn)有的基于LDA、Word2Vec等統(tǒng)計學(xué)習(xí)方法的文檔搜索改進策略相比,該方法借助軟件項目源代碼中的代碼實體對自然語言文本的語義進行結(jié)構(gòu)化表示,并利用代碼實體之間的結(jié)構(gòu)依賴關(guān)系實現(xiàn)了對文本之間的潛在語義關(guān)聯(lián)的更直接、更有效的挖掘與利用,顯著提高了文檔搜索的效果。
03?下一步的工作內(nèi)容是什么??
未來,基于軟件開發(fā)過程中的更多數(shù)據(jù)類型,進一步的工作是進行軟件知識圖譜知識實體的擴充,以及建立更多的語義關(guān)聯(lián),并提供更精準(zhǔn)的交互式智能問答服務(wù)。
研究詳情請閱原文:
http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021002
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉(zhuǎn)載、合作:010-81055537
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學(xué)會會刊、中國計算機學(xué)會推薦中文科技期刊,并被評為2018年、2019年國家哲學(xué)社會科學(xué)文獻中心學(xué)術(shù)期刊數(shù)據(jù)庫“綜合性人文社會科學(xué)”學(xué)科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的提高软件开发、软件维护的效率和质量的利器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 16进制数怎么判断正负
- 下一篇: 试分析下列程序段:请选择(L1、L2、L