二代测序之SNV检测总结笔记
二代測序之SNV檢測總結筆記
文章目錄
- 二代測序之SNV檢測總結筆記
- Short variant calling的流程:
- 測序常見錯誤:
- Germline:HaplotypeCaller (單倍體) in GATK
- 過濾候選的Variant信息
- 篩選流程:
- Somatic Calling Workflow(Mutect2)
- 參考資料:
Short variant calling的流程:
比對好的腫瘤樣本的Reads和參考基因組做比對獲得全部的在腫瘤中發現的突變mutations,比對好的正常樣本的Reads和參考基因組做比對獲得胚系突變germline mutations,這兩個之間的差別很大程度上是somatic mutations,且該結果是來源于上百萬的細胞的平均值,而非單細胞的數據,是從群體層面來看的平均效果。
變異的檢測相對基因型的檢測更困難和一般,基因型決定一系列的等位基因具體的變異,而等位基因的數量是確定的,通常人類是二倍體,特殊只需考慮SNPs和單倍體的情況。
而變異的檢測就需要考慮癌癥基因組可能出現:拷貝數的變化,腫瘤的異質性,制備文庫時出現腫瘤和正常的混合污染,混合的潛在性非二倍體的基因型。
其中Coverage為測序深度。位置2,4,8出現了變化的堿基,最后一個只出現了一個C,可能是測序錯誤,所以放棄。
Allele Fraction(AF):指Reads中多少個reads支持替代的堿基的比例
AF = (n[多少個變化的堿基]+1)/(N[Reads中該位置總共多少個堿基]+2)%
據課程所知:+1是統計上解決樣本容量較低(造成頻度估計不準)一種常見的trick。另一種常見近似是+2(兩種類型的結果頻數各加上2,相當于總樣本量+4)
測序常見錯誤:
-
文庫制備過程中
1.混雜各種細胞導致污染,如細菌,腫瘤正常細胞,微生物等的混雜
2.引入技術序列(如接頭序列)
-
測序過程中
-
比對過程中
Germline:HaplotypeCaller (單倍體) in GATK
基于java軟件的variant calling的軟件,應用于germline的分析。
流程:
對各種各樣的單倍型進行一個定性的評價[likelihoods],這里使用PairHMM模型。
根據倍型的組合,把germline的變異的位點挑出來[SWA(Smith-Waterman alignment)]。
過濾候選的Variant信息
- 堿基質量(base qualities) :低質量暗示著測序錯誤
- Read位置:偏差暗示著匹配錯誤
- 基因組鏈[Genomic strand]:偏差暗示著匹配錯誤
- 基因組位置:是否存在PCR重復序列,self-chain[染色體之間相似性的比較],homoploymers均聚物[地復雜區域]
- 匹配信息:算法相關的質量分數
根據以上的這些進行過濾篩選。
篩選流程:
最后根據dbSNP數據庫進行判斷,篩掉SNP,獲得突變的信息。
Somatic Calling Workflow(Mutect2)
參考資料:
歡迎關注我的公眾號呀~
總結
以上是生活随笔為你收集整理的二代测序之SNV检测总结笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 6款电脑必备的常用软件(办公/高效/小白
- 下一篇: CCF 碰撞的小球