NeuSomatic:基于深度CNN的肿瘤体细胞突变检测工具
作者丨Peter??
單位丨某基因科技公司生物信息工程師
研究方向丨生物信息
在 3 月 4 號的“Nature”子刊中,展示了利用深度 CNN 來檢測體細胞突變的新工具“NeuSomatic”,該工具使用 PyTorch 寫成,支持 GPU,對于同等數量的數據(30X),訓練時間相比之前谷歌提出的 Deep Variant 所需的 1000 CPU 時,僅需 156 CPU 時。
網絡結構
體細胞突變(Somatic Mutation),常見于癌癥相關的研究。癌癥的成因是細胞中有害突變的累積導致的細胞無限增殖,通過測序技術,可以檢測出癌細胞中特有的突變,如果癌細胞正好有靶向藥針對的靶點突變,那使用靶向藥治療就能顯著提高患者的生存時間,這就是常說的針對癌癥的精準個性化醫療。
但癌細胞的突變,其結構更加復雜,多樣性更高,檢測的難度也更大。傳統的方法,不管是準確性還是查全率,都有顯著提升的空間。?
為了確認哪些是癌細胞特有突變,會對腫瘤組織和正常細胞分別采樣測序,之后比較其中的差距。由于癌細胞的突變往往會形成較為復雜的內部結構,因此更難以檢出。
之前的利用深度學習做變異檢測工具,例如 Deep Variant,只能用來檢測來自父母遺傳得出的非體細胞突變。NeuSomatic 作為一個新的工具,效果好于目前該領域常用的方法,通過 ensemble 的方法,可以加入檢測流程中,用于提升檢測出變異的準確性和完整性。
上圖展示了該問題的輸入數據,Ref(參考序列)代表大部分人的基因序列,正常細胞和癌癥細胞測序得出的讀(read)是將 DNA 長序列打斷測序后得出的片段。中間的圖展示的是將測序得出的讀比對后的結果,其中的黃色代表可能的體細胞單堿基突變(Single Nucleotide Vantiantion)。
例如此處的 T 在正常細胞中都是沒有突變的,但在癌細胞中卻又部分變成了 C。而上圖中間的是可能的插入類突變,在癌癥的樣本中,相比正常的樣本中的讀,標出的部分在部分讀上顯示有多出的堿基,而這些在正常組織的讀中都不存在。
NeuSomatic 按照堿基類型,以及該堿基上支持的讀的數目多少,將比對的結果做了轉換,得出右圖,其中的“-”代表這個位置出現了一個空缺(gap)。
上圖展示了模型的處理流程其中的 reference channel,tumor coverage channel,和 normal coverage channel 分別是上圖展示的矩陣,同時還會將該位置上人群中的突變概率,癌細胞中之前記錄的突變頻率以及比對中的質量值等信息以矩陣的形式輸入。
這里的 position 指的是矩陣對應的讀在測序得出的讀中處在什么位置,例如對于測序產生的讀長為 200bp(base pair)的讀,每個矩陣處理的只是其中的 64bp,因此需要標注其位置信息。
NeuSomatic 同時還支持將其他檢測體細胞突變的方法的輸出,按照矩陣的形式當成輸入,從而實現在一個框架下對多個模型進行整合。?
之后的數據處理 CNN 標準的三明治結構(卷積,批量正則化,池化),引入了短路來解決網絡過深的問題,之后通過變異類型的分類器來判斷變異屬于插入,刪除,與單堿基突變中的一種,以及變異的長度(0,1,2,或大于等于 3),并通過回歸的方式,確定變異所在的位置。
針對網絡結構的選擇,在訓練前,嘗試了 ResNet-18 中的多種結構,將訓練數據一分為二,一半用來訓練當前認為最好的網絡結構,一半用來訓練新嘗試的網絡結構。
在訓練了一段時間后,下表展示了不同網絡結構的對比。根據對不同網絡結構的對比,選擇了圖 g 的結構作為 NeuSomatic 的網絡結構,從而保證在 SNV 及 INDEL 上都能有較好的表現。
介紹了網絡結構,那該怎么將問題轉化為監督學習了?答案是用模擬數據,根據真實突變發生的頻率,模擬 DNA 序列某位置已發生突變,這樣在知道了答案的前提下,去將為訓練數據加上標簽。遇到真實數據時,就用在模擬數據中訓練好的模型進行分類。
實驗
最后看一看該方法在真實數據上的準確性,這里采用了公開的數據集,使用了通過實驗驗證的腫瘤細胞細胞系中的體細胞突變作為真集??梢钥闯?NeuSomatic 的表現好于 NeuSomatic-S,這是由于前者在輸入中結合了上述的所有常規方法的結果,對其進行了整合,而 NeuSomatic-S 則只是用了原始的測序數據當做輸入。在運行時間上,前者是后者的 3.5 倍。
在論文中,作者還驗證了該方法對于不同測序平臺(二代與三代)的數據,都具有適用性。并且在不同的測序深度下,都表現明顯好于已有的方法。
總結
NeuSomatic 是第一種使用深度學習進行體細胞突變的工具,其表現顯著優于之前的方法。使用 NeuSomatic,可以提高準確檢查出靶點變異的幾率,避免漏檢,從而更高效的指導他人精準用藥。達到之前方法相同的準確度,需要的測序數據也會有顯著的降低,從而可以降低檢測的成本。在方法學上,該方法的創新點在于將其他檢測方法的輸出和中間結果等作為輸入,從而做到了再一個框架下整合多種方法。
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度思考 | 從BERT看大規模數據的無監督利用
AI Challenger 2018 機器翻譯參賽總結
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構信息網絡表示學習論文解讀
不懂Photoshop如何P圖?交給深度學習吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的NeuSomatic:基于深度CNN的肿瘤体细胞突变检测工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACM MM18 | 用于跨模态检索的综
- 下一篇: “让Keras更酷一些!”:分层的学习率