【智能AI】准确率97%的开源肺炎检测模型
云棲號(hào)資訊:【點(diǎn)擊查看更多行業(yè)資訊】
在這里您可以找到不同行業(yè)的第一手的上云資訊,還在等什么,快來(lái)!
最近,一位澳大利亞的人工智能博士候選人在 LinkedIn 上發(fā)布了一篇關(guān)于 SARS-CoV-2 病毒的研究文章。由于極具話題性且號(hào)稱準(zhǔn)確率可以達(dá)到 97.5%,這篇文章很快得到上萬(wàn)條評(píng)論、點(diǎn)贊與轉(zhuǎn)發(fā)。然而,這樣一個(gè)模型卻被扒出背后只用了 50 張圖片訓(xùn)練。
一周搭起準(zhǔn)確率達(dá) 97% 的模型,事實(shí)是?
此前,一位澳大利亞的人工智能博士候選人宣布構(gòu)建了一套深度學(xué)習(xí)模型,能夠從肺部 X 光片中以 97.5% 的準(zhǔn)確率 檢測(cè)出患者是否感染了 COVID-19 病毒。因?yàn)閲?guó)外疫情蔓延且醫(yī)療設(shè)施不足,因此人們對(duì)這個(gè)成果非常關(guān)注,短短時(shí)間就收獲到了上萬(wàn)條評(píng)論、點(diǎn)贊和轉(zhuǎn)發(fā),其還創(chuàng)建了 Slack 工作組,得到了大量贊美。
從目前公布的消息來(lái)看,整個(gè)項(xiàng)目具有以下特點(diǎn):
- 一套經(jīng)過(guò)訓(xùn)練的 PyTorch 模型
- 容器化應(yīng)用代碼
- 一套 GitHub 庫(kù),并被翻譯為多種語(yǔ)言
- 正在開(kāi)發(fā)中的 Web 應(yīng)用程序
- 正在開(kāi)發(fā)中的移動(dòng)應(yīng)用程序
- 規(guī)劃藍(lán)圖,有意在 AWS 中利用無(wú)服務(wù)器架構(gòu)托管這套模型
- 在營(yíng)銷與贊助方面還有大量后續(xù)計(jì)劃
而以上的一切,都在一周之內(nèi)快速完成。隨后,Reddit 網(wǎng)友扒出這套解決方案存在幾個(gè)嚴(yán)重問(wèn)題,并對(duì)此進(jìn)行了整理與反駁。
只用了 50 張圖像訓(xùn)練?
首先,這些網(wǎng)絡(luò)的潛在神經(jīng)表示非常復(fù)雜,因此必然需要使用大量訓(xùn)練樣本才能完成模型訓(xùn)練。但截至提交時(shí),這款 COVID-19 檢測(cè)工具只見(jiàn)過(guò) 50 張肺部影像。
對(duì)于這樣一套包含 150 多層、超過(guò) 2000 萬(wàn)個(gè)參數(shù)的網(wǎng)絡(luò)來(lái)說(shuō),如此有限的訓(xùn)練樣本集顯然極為荒謬。
數(shù)據(jù)樣本有問(wèn)題
此外,樣本中可能存在巨大的數(shù)據(jù)偏差,這 50 張圖片并不包含相關(guān)人員是否感染病毒,而僅根據(jù) COVID-19 急性病例造成的肺部操作做出標(biāo)記。除非肺部已經(jīng)被病毒破壞,否則該模型根本無(wú)法檢測(cè)到感染跡象。此外,即使已經(jīng)出現(xiàn)肺炎癥狀,如果尚不屬于急性癥狀,仍然無(wú)法證明這套模型的準(zhǔn)確度。
圖像重復(fù)、代碼混亂、模型有問(wèn)題
最后,這套 COVID 模型基于高人氣基準(zhǔn)網(wǎng)絡(luò) ResNet-50。雖然后者確實(shí)屬于圖像識(shí)別與分類領(lǐng)域的常用方案,但 ResNet 的預(yù)訓(xùn)練一般只涵蓋日常環(huán)境下的物體。換言之,ResNet 網(wǎng)絡(luò)中的隱藏層更擅長(zhǎng)識(shí)別幾何形狀與彩色圖像,在 X 射線影像中,我們明顯找不到這樣的模式。也正因?yàn)槿绱?#xff0c;大多數(shù)醫(yī)學(xué)神經(jīng)網(wǎng)絡(luò)才只能選擇從零開(kāi)始構(gòu)建的開(kāi)發(fā)方式。
進(jìn)一步觀察這套代碼庫(kù),我們還發(fā)現(xiàn)了不少其他問(wèn)題。訓(xùn)練、驗(yàn)證與測(cè)試數(shù)據(jù)集中包含重復(fù)的圖像,大部分訓(xùn)練過(guò)程直接照搬 PyTorch 教程,混有大量不必要的代碼;Github issues 也令人完全無(wú)法理解……
GitHub 地址:?https://github.com/elcronos/COVID-19
項(xiàng)目負(fù)責(zé)人回應(yīng):我說(shuō)了項(xiàng)目不可用
最初,個(gè)別開(kāi)發(fā)者與項(xiàng)目負(fù)責(zé)人溝通并提出質(zhì)疑時(shí),對(duì)方回應(yīng)稱:
xxx,你好,我們的成果已經(jīng)得到加拿大 xxx 研究機(jī)構(gòu)放射科醫(yī)生的支持與認(rèn)可
然而,隨著質(zhì)疑聲越來(lái)越多,項(xiàng)目負(fù)責(zé)人更新了 GitHub 中的介紹,并表示:
盡管該項(xiàng)目的結(jié)果“看起來(lái)很有希望”,但我明確指出該模型遠(yuǎn)沒(méi)有可用,因此不應(yīng)將其用于診斷或任何醫(yī)療決定。這是在進(jìn)行中的工作,我們需要具有相關(guān)技能的人員的幫助。我還在 GitHub 存儲(chǔ)庫(kù)中指出,我正在尋找能夠改善和收集更好數(shù)據(jù)集的開(kāi)發(fā)者的幫助。
…
不幸的是,這個(gè)項(xiàng)目引起了相關(guān)專家的注意,他們沒(méi)有注意模型尚未準(zhǔn)備就緒,且需要更好的數(shù)據(jù)集并幫助創(chuàng)建更好的模型,也沒(méi)有閱讀我們的所有免責(zé)聲明。就指責(zé)該項(xiàng)目具有誤導(dǎo)性,甚至有人暗示我對(duì)此有商業(yè)意圖。這對(duì)我的個(gè)人生活造成了一些負(fù)面影響,因此,我決定暫時(shí)退一步,暫時(shí)退出社交媒體。至少在接下來(lái)的幾天,我將不活躍于此組中。
完整版聲明參照:?https://github.com/elcronos/COVID-19
然而,這位負(fù)責(zé)人此前還在大肆宣揚(yáng)此項(xiàng)目,并發(fā)起籌款。該項(xiàng)目負(fù)責(zé)人創(chuàng)建了一個(gè)包含多個(gè)子頻道的 Slack 討論組,其中有 一個(gè) #marketing 頻道,專門用于溝通以及籌措資金。另外,#sponsors 頻道則負(fù)責(zé)與潛在投資者交流,向其報(bào)告未來(lái)的投資回報(bào)前景。
Slack 討論組:?https://app.slack.com/client/T010AJ5H31N/learning-slack
此外,名為 #datascientists 的頻道中沒(méi)多少有用的內(nèi)容,里面充斥著熱情滿滿但沒(méi)什么經(jīng)驗(yàn)的新手。同樣的,#doctors 頻道情況也差不多,唯一有價(jià)值的內(nèi)容就是來(lái)自專業(yè)醫(yī)療人員的反對(duì)意見(jiàn),例如并不推薦利用肺部 X 射線診斷 COVID-19 感染。最后一個(gè)子頻道 #researchers 則幾乎沒(méi)人。
另一方面,UI/UX 頻道產(chǎn)出的內(nèi)容倒是頗為豐富。此項(xiàng)計(jì)劃目前已經(jīng)擁有 5 款不同的徽標(biāo),外加一套專門用于移動(dòng)與 Web 應(yīng)用程序的界面。
因此,對(duì)于這份聲明,大部分開(kāi)發(fā)者并不買賬,不少人認(rèn)為 在當(dāng)前的特殊情況下,這類存在嚴(yán)重問(wèn)題的項(xiàng)目不應(yīng)發(fā)布并大肆宣傳(甚至有開(kāi)發(fā)者調(diào)侃道宣傳的工作量大概是開(kāi)發(fā)工作的 20 倍)。
醫(yī)學(xué)診斷中的深度學(xué)習(xí)
深度卷積網(wǎng)絡(luò)在疾病的診斷與治療方面確實(shí)具有一系列潛在優(yōu)勢(shì)。近年來(lái)發(fā)表的眾多科學(xué)出版物中都在高度關(guān)注這一全新發(fā)展方向:
2016 年,來(lái)自倫敦的一組研究人員發(fā)表一種新方法,以包含 8 萬(wàn)張眼底照片的數(shù)據(jù)集為基礎(chǔ),能夠以 86% 的準(zhǔn)確率診斷出患者因糖尿病引發(fā)的視網(wǎng)膜病變。
同一年,來(lái)自烏干達(dá)的研究人員利用包含 10000 個(gè)對(duì)象的數(shù)據(jù)集,評(píng)估了卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)微觀血液涂片的分析能力。
兩位日本研究人員通過(guò)包含 55 萬(wàn)例 CT 掃描影像的數(shù)據(jù)集,對(duì)肺結(jié)節(jié)進(jìn)行一輪規(guī)模浩大的分類操作。
但前文提到的新冠病毒檢測(cè)完全不同,稍微瀏覽其公布的代碼庫(kù),就能看出該作者對(duì)深度學(xué)習(xí)及 AI 技術(shù)的認(rèn)知嚴(yán)重不足。更糟糕的是,眾多開(kāi)發(fā)者都在質(zhì)疑其明顯是想利用此次疫情爆發(fā)對(duì)自己進(jìn)行推廣。
說(shuō)好的代碼改變世界呢?
深度學(xué)習(xí)絕不是百試百靈的解決方案。近年來(lái),無(wú)數(shù)沒(méi)有做好準(zhǔn)備的企業(yè)匆匆在內(nèi)部建立起數(shù)據(jù)團(tuán)隊(duì),最終卻發(fā)現(xiàn)成本迅速提升的同時(shí)得不到任何有意義的產(chǎn)出。
此前,李飛飛在接受訪談時(shí)曾提到:
泡沫確實(shí)存在,過(guò)度夸張、炒作可以說(shuō)鋪天蓋地。作為科學(xué)家,我希望這些泡沫都盡快消散。只有關(guān)注堅(jiān)實(shí)內(nèi)核的人們才能推動(dòng) AI 進(jìn)步并帶來(lái)真正的收益,這一點(diǎn)在醫(yī)療保健與醫(yī)藥等領(lǐng)域尤其重要。
另外,我們絕不應(yīng)該利用技術(shù)制造不公、偏見(jiàn)或者擴(kuò)大原已存在的不平等現(xiàn)象。對(duì)于 AI 技術(shù),我希望盡可能降低它的接觸門檻、增加公平性并緩解種種相關(guān)矛盾。只要處理得當(dāng),我們完全有機(jī)會(huì)利用 AI 技術(shù)創(chuàng)造出更美好的未來(lái)。當(dāng)然,前提是我們得認(rèn)真梳理現(xiàn)有 AI 成果,弄清哪些是捏造的、哪些是真實(shí)的。
【云棲號(hào)在線課堂】每天都有產(chǎn)品技術(shù)專家分享!
課程地址:https://yqh.aliyun.com/zhibo
立即加入社群,與專家面對(duì)面,及時(shí)了解課程最新動(dòng)態(tài)!
【云棲號(hào)在線課堂 社群】https://c.tb.cn/F3.Z8gvnK
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的【智能AI】准确率97%的开源肺炎检测模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 在DataWorks标准模式下统计个人账
- 下一篇: 【开发者成长】5 分钟搞定 Linux