【NLP】医学AI又一突破,微软开源生物医学NLP基准:BLURB
By 超神經
內容概要:微軟團隊發布生物醫學領域 NLP 基準,命名為 BLURB,已在 arxiv.org 中發布相關論文,并將其開源。
關鍵詞:生物醫學?自然語言處理?基準
微軟的研究團隊近日在 arxiv.org 發布了論文:《Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing 生物醫學特定領域的語言模型預訓練》,介紹并開源了一個能夠用于生物醫學領域 NLP 基準,并命名為 BLURB。
論文地址:https://arxiv.org/pdf/2007.15779.pdf
Biomedical?Language?Understanding and?Reasoning?Benchmark 的首字母縮寫,即為 BLURB 的命名規則,翻譯為生物醫學語言理解和推理基準。
?醫學 NLP 基準,BLURB 身負重任
BLURB 包括 13 個公開可用的數據集,涉及 6 個不同的任務。
為了避免偏重多可用數據集的任務,如命名實體識別(NER),BLURB 的報告和排名,將所有任務的宏觀平均數作為主要得分。
圖為 BLURB 中使用的數據集、以及
團隊列出的訓練、開發和測試中的實例數量
BLURB 排行榜是不分模型的。任何能夠使用相同的訓練和開發數據產生測試預測的系統都可以參與。
團隊表示 BLURB 的主要目標是:降低生物醫學NLP的準入門檻,幫助加快該領域的進展,能對社會和人類產生積極影響。
?生物醫學 NLP :必須使用域內文本
研究已經表明生物醫學 NLP 可以在醫學領域提高數據集的準確性。但是在跨學科的數據集中,準確性又會大大降低。而由于不同醫學領域之間(Domain)跨度較大,所以對于 NLP 的預訓練會花費非常多的時間。
微軟研究人員為了提升 NLP 的訓練速度,通過對預訓練和特定任務的微調,對生物醫學 NLP 應用的影響進行了建模比較,從而評估最適合的預訓練方法。
團隊對域內文本與混合域外文本進行的對照
首先,團隊創建了一個名為「生物醫學語言理解與推理基準」(BLURB)的基準,該基準側重于 PubMed 提供的出版物,涵蓋了相似問題解答和文本提取之類的任務。
實驗證明,這種對比的方法能夠將 NLP 訓練的速度提升數倍。
同時,為了鼓勵對生物醫學 NLP 的研究,研究人員創建了以 BLURB 基準為基準的排行榜,還開源了預訓練模型。以求快速生物醫學 NLP 能夠早日投入使用。
訪問?https://microsoft.github.io/BLURB/ 或點擊閱讀原文,可訪問 BLURB 項目官網。
—— 完 ——
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明): 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【NLP】医学AI又一突破,微软开源生物医学NLP基准:BLURB的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【论文相关】 技术性论文结构剖析
- 下一篇: 【论文解读】SIGIR 2020 | 超