第十三届“华中杯”大学生数学建模挑战赛题目 B 题 技术问答社区重复问题识别
B 題 技術問答社區重復問題識別
技術社區問答平臺作為用戶互相分享交流的社區平臺,近年來逐步成為用戶尋找技術類疑難解答的首要渠道。 各分類技術性問題的文本數據量不斷攀升,給問答平臺的日常運營維護帶來了挑戰。隨著新用戶的不斷加入以及用戶數量的增加,新用戶提出的疑問可能已經在平臺上被其他用戶提出并解答過,但由于技術性問題的復雜性,各個用戶提問的切入角度不同,用問題標題關鍵詞匹配的搜索系統無法指引新用戶至現有的問題。于是,新用戶會提出重復的問題,而這些問題會進一步增加平臺上的文本量,導致用戶重復響應相同的問題。對于這種現象,通常的做法是及時找到新增的重復問題并打上標簽,然后在搜索結果中隱藏該類重復問題,保證對應已解決問題出現的優先度。所以,建立一個基于自然語言處理技術的自動標重系統會對問答平臺的日常維護起到極大幫助。
目前,問答平臺上的問題標重主要依靠用戶人工辨別。平臺用戶會對疑似重復的問題
進行投票標記,然后平臺內的管理員和資深用戶(平臺等級高的用戶)對該問題是否被重
復提問進行核實,若確認重復則打上重復標簽。該過程較為繁瑣,依賴用戶主觀判斷,存
在時間跨度大、工作量大、效率低等問題,增加了用戶的工作量且延長了新用戶尋求答案
所需的時間。因而,如能建立一個檢測問題重復度的模型,通過配對新提出問題與文本庫
中現存問題,找出重復的問題組合,就能提高重復問題標記效率,提高平臺問題的文本質
量,減少問題冗余。同時,平臺用戶也能及時地根據重復標簽提示找到相關問題并查看已
有的回復。
附件給出了問答平臺上問題的文本內容記錄,以及比較兩個問題之間是否重復的數據
集。請根據附件給出的問題文本數據及問題配對信息,建立一個能判斷問題是否重復的分
類模型,并解決:
1)輸出樣本問題組為重復問題的概率;
通常使用 F1-score 對分類模型進行評價:
其中𝑃𝑖為第𝑖類的查準率,𝑅𝑖為第𝑖類的查全率;
2)從附件問題列表中,給出與目標問題重復概率最大的前 10 個問題的編號;
對于每個問題的預測結果采用 top K 列表對其進行評估,評估公式如下:
其中𝑁𝑑𝑒𝑡𝑒𝑐𝑡𝑒𝑑 為在 top K 列表結果中正確檢測到的重復問題編號數量,𝑁𝑡𝑜𝑡𝑎𝑙為該樣
本實際擁有的重復問題數量。評估時 K 取 10,若樣本中無重復問題則不會計分。
總結
以上是生活随笔為你收集整理的第十三届“华中杯”大学生数学建模挑战赛题目 B 题 技术问答社区重复问题识别的全部內容,希望文章能夠幫你解決所遇到的問題。