【深度学习】上海交大发布 MedMNIST 医学图像分析数据集 新基准
By 超神經(jīng)
內(nèi)容概要:醫(yī)學(xué)圖像分析是一個非常復(fù)雜的跨學(xué)科領(lǐng)域,近日上海交通大學(xué)發(fā)布了 MedMNIST 數(shù)據(jù)集,有望促進(jìn)醫(yī)學(xué)圖像分析的發(fā)展。
關(guān)鍵詞:醫(yī)學(xué)圖像分析? ?公開數(shù)據(jù)集
?令人頭禿的醫(yī)學(xué)圖像分析
醫(yī)學(xué)圖像分析是一個公認(rèn)的「老大難」課題。
首先它是一個跨學(xué)科領(lǐng)域,要求從業(yè)者具備多方面知識背景,即使你是鉆研計算機(jī)視覺的專業(yè)人士,又或者是一個臨床醫(yī)學(xué)從業(yè)者,那你充其量只邁出了進(jìn)行醫(yī)學(xué)圖像分析的半只腳。
樂觀估計,經(jīng)過多年的學(xué)習(xí)和研究,你終于掌握了計算機(jī)視覺和臨床醫(yī)學(xué)的雙向技能,那接下來的操作也能讓你愁到頭禿,因?yàn)檫@些數(shù)據(jù)來源五花八門,有 X 射線、CT、超聲……分析處理這么多個不同模式的非標(biāo)準(zhǔn)數(shù)據(jù)集,也太難了!
這還沒完,深度學(xué)習(xí)雖然在醫(yī)學(xué)圖像分析的研究和應(yīng)用中,已經(jīng)占據(jù)主導(dǎo)地位,但模型調(diào)整需要的人力成本太高了,AutoML 好使是好使,但是目前基本沒有用于醫(yī)學(xué)圖像分類的 AutoML 基準(zhǔn)。
MedMNIST 分類十項(xiàng)全能一覽
醫(yī)學(xué)圖像分析困難重重,然而上海交通大學(xué)近期發(fā)布的 MedMNIST 數(shù)據(jù)集,則為終結(jié)這些老大難問題,帶來了一大利器。
?10 個公開數(shù)據(jù)集、45 萬張圖像重新整理
MedMNIST 是一個包含 10 個醫(yī)學(xué)公開數(shù)據(jù)集的集合,且全部數(shù)據(jù)均已經(jīng)過預(yù)處理,將其分為包括訓(xùn)練集、驗(yàn)證集、測試子集的標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態(tài)數(shù)據(jù)。與 MNIST 數(shù)據(jù)集一樣,MedMNIST 可以在輕量級 28*28 圖像上執(zhí)行分類任務(wù)。
十個數(shù)據(jù)集的數(shù)據(jù)模式、適用任務(wù)及圖像數(shù)量
MedMNIST 具有以下特點(diǎn):
教育性:多模態(tài)數(shù)據(jù)來自于多個公共醫(yī)學(xué)圖像數(shù)據(jù)集,采用知識共享(CC)許可協(xié)議或自由許可協(xié)議,方便教學(xué)使用。
標(biāo)準(zhǔn)化:全部數(shù)據(jù)已經(jīng)預(yù)處理成相同的格式,降低準(zhǔn)入門檻,任何人都可以使用。
多樣性:多模態(tài)數(shù)據(jù)集涵蓋了不同的數(shù)據(jù)模式,數(shù)據(jù)規(guī)模從 100 到 100,000 都支持,任務(wù)類型也豐富為二元分類、多元分類、有序回歸和多標(biāo)簽。
輕量級:28*28 的圖像尺寸便于迅速進(jìn)行原型設(shè)計,對多模態(tài)機(jī)器學(xué)習(xí)和 AutoML 算法進(jìn)行快速迭代和實(shí)驗(yàn)。
MedMNIST Dataset
發(fā)布機(jī)構(gòu):上海交通大學(xué)
包含數(shù)量:454,591 個圖像數(shù)據(jù)
數(shù)據(jù)格式:NPZ
數(shù)據(jù)大小:654 MB
發(fā)布時間:2020 年 10 月 28 日
下載地址:http://dwz.date/dew2
?十項(xiàng)全能大法好,打造 AutoML 新基準(zhǔn)?
受《醫(yī)學(xué)分割十項(xiàng)全能》(Medical Segmentation Decathlon)的啟發(fā),上海交通大學(xué)的科研人員還發(fā)布了《MedMNIST 分類十項(xiàng)全能》 (MedMNIST Classification Decathlon),作為醫(yī)學(xué)圖像分類中的輕量級 AutoML 基準(zhǔn)。
科研人員用 MedMNIST 分類十項(xiàng)全能,評估了在全部 10 個數(shù)據(jù)集上的算法性能,并采取了其他幾個 baseline 方法與該基準(zhǔn)進(jìn)行對比,這些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。
MedMNIST 在 AUC 和 ACC 等指標(biāo)上的性能一覽
實(shí)驗(yàn)結(jié)果表明,針對全部 10 個數(shù)據(jù)集,都能取得很好的泛化性能的算法,在實(shí)驗(yàn)中并不存在。該實(shí)驗(yàn)對于探索在不同數(shù)據(jù)模式、任務(wù)類型和數(shù)據(jù)規(guī)模上,進(jìn)行很好地泛化的 AutoML 算法,意義重大。
MedMNIST 分類十項(xiàng)全能基準(zhǔn)測試,將促進(jìn)未來醫(yī)學(xué)圖像分析 AutoML 的相關(guān)研究。
相關(guān)論文:
https://arxiv.org/pdf/2010.14925.pdf
開源地址:
https://github.com/MedMNIST/MedMNIST
?現(xiàn)在下載數(shù)據(jù)集,開始你的訓(xùn)練
下載數(shù)據(jù)集,在線訓(xùn)練機(jī)器學(xué)習(xí)模型,你可以通過 OpenBayes 開啟你的練習(xí)。
OpenBayes?是一個針對機(jī)器學(xué)習(xí)提供云端算力的云服務(wù)平臺,它擁有大規(guī)模的超算集群,支持多種配置的 GPU、CPU 算力資源,擁有開箱即用泛用型機(jī)器學(xué)習(xí)建模系統(tǒng),無需機(jī)器學(xué)習(xí)經(jīng)驗(yàn),即可快速建立智能系統(tǒng)。
目前 OpenBayes 的算力容器產(chǎn)品已經(jīng)支持?TensorFlow、PyTorch、MXNet、Darknet、cpp-develop 等 CPU 和 GPU 環(huán)境下,不同版本、類型的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架和各種常用依賴。
同時 OpenBayes 還提供?CPU、NVIDIA T4、NVIDIA Tesla V100?等多種算力資源,無論是海量數(shù)據(jù)的集中訓(xùn)練,還是低功耗的模型常駐運(yùn)行,都能輕松滿足用戶需求。
目前 MedMNIST 數(shù)據(jù)集已經(jīng)上線 OpenBayes。
訪問以下鏈接或點(diǎn)擊閱讀原文,開啟你的 MedMNIST 探索旅程吧!
鏈接:http://dwz.date/dew2
—— 完 ——
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開: https://t.zsxq.com/y7uvZF6 本站qq群704220115。加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】上海交大发布 MedMNIST 医学图像分析数据集 新基准的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】图解 Attention完整版
- 下一篇: 探秘AI开发「神器」ModelArts,