送书 | 日读论文100+,AI都替代不了!辞去医药研发总监后,她成为了一名全职学术警察...
大數據文摘出品
作者:笪潔瓊、奧????vi丫、lin
密集警告!
先來感受下這場地獄級別的連連看:這是16小塊實驗數據圖,你能看出哪些塊存在相似的地方嗎?
? ? ? ?
文摘菌看了一會兒就頭昏眼花,但是,你相信嗎?有人可以用肉眼一下子看出其中相似的地方,而且,這就是她每天的日常工作。
這位“連連看高手”就是Elisabeth Bik,人稱跨國論文打假王,專門尋找論文中的異常,目前已經對超過49個國家的研究學者公開發表的論文提出質疑。
她的特殊技能是,可以用肉眼瀏覽數十篇生物醫學類的論文,并尋找其中重復使用的圖像,這些重復圖像包括通過復制、翻轉、移動或旋轉圖像的一部分來創建“新”的實驗數據(文獻檢索新姿勢,教你如何直搜文中的科研圖片!)。
2019年11月,在PubPeer(可匿名討論論文的網站)上,南開大學的校長曹雪濤教授,有超過40篇論文的實驗圖像數據,被質疑存在重復異常。(事后曹教授被質疑的論文已進行更正)
2020年2月,來自我國三甲醫院的400多篇論文被她質疑是論文工廠代寫,論文中的實驗圖像數據以及寫作邏輯都存在問題。
本月初,Bik質疑中國醫學科學院動物研究所所長秦川團隊,在Nature上發布的論文存在重復圖像,5天后秦川團隊回應:誤用一張病理學實驗數據圖片,已向Nature提交更正。
沒錯,這些異常都是她憑著火眼金睛找到的。
走上打假之路之前,Bik也是一名普通的研究者。
1997年,Bik在荷蘭的烏得勒支大學(Utrecht University)結束了她從理學碩士到博士后的研究學習生涯,并于2002年去斯坦福大學做助理研究員,此后15年都在研究人類以及哺乳動物的微生物群方向,直到2019年開始“全職“進行論文打假工作。
一戰成名的小意外
Bik論文打假工作開始于2013年的一次小意外。當時Bik出于好奇,去搜索了一下自己已發表論文中引用的參考文獻,沒想到其他人沒有按照學術規范表明,進行引用文獻說明。
接著,她在審核一篇博士論文的時候,發現其中的一張實驗圖像:蛋白質印跡的分布規律十分奇怪,更為奇特的是她在論文的另外一章里也看到了這張圖像,論文里是將這張圖像作為兩次不同的實驗結果,但Bik認為該圖像不僅本身存在問題,而且還用在兩個不同的實驗中。
由于該論文已經公開發表了,她為了不讓其他研究者因為這篇有錯誤的論文,而開始錯誤研究的路,就向該期刊的編輯發送郵件說明這個問題,并在同年6月在PubPeer網站上對該論文進行匿名評價。
經過一番調查,相關論文被撤回,而這篇涉嫌篡改數據的論文,讓Bik一戰成名。
接下來,Bik開始對尋找造假實驗圖著迷了,由于看論文非常耗費時間,所以她辭掉了醫藥公司的研發總監工作,專心進行論文打假。
Bik對論文打假比本職工作更有激情,她每次提出質疑不止一篇而是好幾篇,甚至是幾百篇打包式質疑,并及時通過和期刊編輯聯系,對存在異常的論文進行更正或者撤稿。
?
魔法之眼:打假流水線
由于論文數量比較多,她還找到志同道合的朋友一起合作,Bik負責篩查論文,并將篩查出的問題論文結果,傳給兩位朋友:微生物學家Arturo和Fang進行審核,儼然一條論文打假流水線。
他們一共對2萬多篇論文進行抽樣調查,結果發現了782篇論文存在圖像重復的情況。Fang表示:“Bik就像是魔術師,論文中的問題只有經她指出,我們才看得到”。
Bik的日常是從早上開始看論文,一天她收到了來自比利時的科學家的求助信,信中聲稱:請幫忙看看附件里的實驗圖像是否存在問題?
Bik仔細看了下圖像,發現該蛋白質印跡圖像屬于存在異常的,通常蛋白質印跡條帶分布圖(一種檢測生物樣品中蛋白質的通用測試結果)是模糊,而且類似圓滑的黑色毛毛蟲狀,但圖像上是邊緣非常尖銳,而且像素化的特征非常明顯。
正常的實驗圖像可能會存在類似的印跡分布,但不大可能出現完全相同的分布。
當然也可能存在圖片被壓縮后的痕跡,或者是研究者在準備圖像數據時不小心上傳了重復圖像,以及舊顯微鏡上的斑點導致每張圖上都有奇怪的斑點。她還需要參考論文的其它地方再來判斷是否存在重復圖像的問題。
堅持與困擾:“做一個誠實的科學家真難”
雖然她在自傳里評價自己是直率又刻薄,但她同時又極度內斂。
在她打假成名之后,有非常多的人給她發郵件、發消息,希望她能幫忙看看已發布的論文是不是存在問題。由于數量太多,讓她忍不住發推聲明:因為詢問的人數太多,所以她可能無法及時跟進。并且在這些求助信息里,還存在團隊或同事之間的不信任,“做一個誠實的科學家真難。”
雖然Bik對于目前的打假工作充滿熱情,但還是會受到威脅和騷擾。比如經常收到私信被罵,推特頻繁被下線,寫郵件給前同事說壞話之類的情況。
要知道,論文打假行業不僅僅只有她一位論文警察,就只有她是公開使用真名發布打假信息。
她開始在每篇文章的開頭寫上:這篇文章不是對學術不端的批評。
由于Bik持續打假,她的粉絲量在一年內翻了三倍。她不僅自己尋找問題,還將發現有問題的論文提前發到推特上,看誰能先找出來問題,并號召大家一起來找茬,第一個答對的人有獎勵,甚至還有粉絲找到了她都沒有找到的隱藏彩蛋。
她自己保守估計至少導致了172次論文退稿,以及超過300次修改。
?
每天看100篇論文,共建圖像查重系統
Bik一天可以精讀大約100篇論文,并向她的數據庫中添加1到20個匹配數據。當一張重復的問題圖像反復出現,以及一張熟悉的問題圖像再次出現時,系統就會出現提示。當收集的圖像數據足夠多時,系統就可以自我總結規律,比如多次出現問題的研究者就會重點審核。(敲黑板警告)(這個Nature推薦的代碼海洋竟然有文章作者上傳的所有可重現性腳本,涉及單細胞、微生物組、轉錄組分析、機器學習等相關)
雖然Bik表示她不針對任何人,但數據庫里問題最多的研究者的國籍是中國和印度,重復的圖像更喜歡低影響力的期刊。
根據這個數據庫,Bik在和計算機科學家合作開發一款自動查重圖片的軟件,希望可以在數百萬篇論文中發現重復使用的圖片。
“很遺憾,我們不能克隆Elisabeth Bik,”紐約雪城大學的計算機科學家Daniel Acuna說,他的小組是專門研究問題圖像檢測算法,盡管Bik擅長在單篇論文里查找復制的圖像,但計算機可以通過比較數十萬篇或數百萬篇論文,來幫助找到兩篇論文之間的更多的重復,這對人類來說幾乎是不可能的任務。
2018年,Acuna的團隊在bioRxiv預印服務器上發布了分析的初步結果,該分析結果從760,000篇論文中提取了200萬張圖像。
AI能替代嗎?
事實證明,計算量太大,根本無法將每張圖像彼此進行對比,但是該團隊研究了同一作者在論文內部和跨論文的圖像重復,在手動檢查了軟件標記的3,700多個匹配圖像的樣本后,研究人員確認了40篇異常論文,其中幾乎一半涉及同一張圖像,用于在不同的論文中代表不同的結果。
當前的技術擅長檢測復制,翻轉或旋轉的完全相同的副本。Resis 公司有款軟件,可以檢測論文是否使用重復圖像。比較麻煩的是,例如兩張圖像共享一小塊重疊區域,但在其它方面完全不同。這時,軟件就失效了。
Bik給Acuna提供了更多的樣本數據來訓練機器學習算法(機器學習愛好者必讀的入門指南),其中包含了大量重復的圖像數據。愛思維爾(Elsevier)也在研發同類型的數據庫,現有500個生物醫學方向的樣本數據,主要是來自撤回論文的圖像數據。
Bik對目前能用的軟件都不滿意。她相信未來會有計算機程序來進行篩選,但人們將始終需要審核結果,尤其是要審核在某些情況下的圖像,存在部分相似的情況。
就這樣,Bik倒了一杯咖啡,坐在桌旁繼續看論文,落地窗外是滿滿的果樹和植物。
相關參考:
https://www.nature.com/articles/d41586-020-01363-z
https://scienceintegritydigest.com/
https://scienceintegritydigest.com/2020/02/21/the-tadpole-paper-mill/
http://www.inewsweek.cn/society/2019-11-18/7721.shtml
https://mp.weixin.qq.com/s/zDLgvRQ9rgUGu-CPqtEzIQ
精選●閱讀
這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次
什么,你算出的P-value看上去像齊天大圣變的廟?
從一段挖礦病毒代碼看Linux命令的實際應用
Nature重磅綜述 |關于RNA-seq,你想知道的都在這
RNA-seq最強綜述名詞解釋&思維導圖|關于RNA-seq,你想知道的都在這(續)
有了這些,文件批量重命名還需要求助其它工具嗎?
只需一行代碼,完美呈現Markdown格式,寫作展示兩不誤
送書
在上周的留言送書活動中,恭喜下面這位讀者獲得書籍“Python:入門到人工智能實戰”,請及時與生信寶典編輯(shengxinbaodian)聯系。
看了本文,您有什么想說的呢?
歡迎轉發朋友圈并留言評論,留言得贊最高者將獲得下面由北京大學出版社贊助的書籍(聯系小編時請附上分享截圖),結果在下一期送書活動中公布:
本書從自動化測試理論入手,全面地闡述自動化測試的意義及實施過程。全文以Python語言驅動,結合真實案例分別對主流自動化測試工具Selenium、RobotFramework、Postman、Python Requests、Appium等進行系統講解。?
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的送书 | 日读论文100+,AI都替代不了!辞去医药研发总监后,她成为了一名全职学术警察...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: esquisse: 快速可视化图形的
- 下一篇: 经验也有捷径,来看下这些热点、经验、技术