最后一周!导师推荐的转录组和可视化学习捷径
轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因、標志基因、協同變化基因、差異剪接和新轉錄本,并進行結果可視化、功能注釋和網絡分析等。
轉錄組的測序分析也相對成熟,從RNA提取、構建文庫、上機測序再到結果解析既可以自己完成,又可以在專業公司進行。
概括來看轉錄組的分析流程比較簡單,序列比對-轉錄本拼接 (可選)-表達定量-差異基因-功能富集-定制分析。整個環節清晰流暢,可以作為最開始接觸高通量測序學習最合適的技術之一。
但重點和難點在于理解這些過程都是怎么做的,有什么需要注意的,結果怎么解讀,后續分析怎么做。這些只有自己動手操作過,才可能有理解。而理解了一個,再去做其它類型分析,也會輕松很多。
實驗設計這塊重要的是對照和至少3個生物學重復,并選擇合適的測序通量。ENCODE要求重復之間的Spearman correlation值大于0.9?(遺傳背景不一致的生物重復相關系數要大于0.8)。定量基因表達和評估轉錄圖譜相似性只需要中等測序深度;而研究新轉錄本和可變剪接則需要更深的測序;一般來講長RNA-seq文庫測序深度滿足可用reads在20-30 million?(如果測PE150,換算成堿基數為6G-9G)。
另外一個需要注意的是測序的批次效應,保證自己的樣品同時處理、RNA同時提取、同時構建文庫和上機測序。這些環節雖然不能總受我們控制,但記錄下對應的操作時間和批次,最后在繪制表達圖譜時與實驗相關參數進行關聯展示?(利用我們介紹的熱圖簡化或高顏值免費在線繪圖工具升級版來了~~~),從而保證結果沒有受到試驗中處理批次的影響。ENCODE計劃有一篇文章在比較人和小鼠不同組織的表達譜相似度時得到的結果是樣品按物種而非組織聚在一起,這與之前認為的發育通路的保守性不符。后來發現是測序批次搗的鬼,做了批次效應矯正后,表達圖譜按組織而非物種聚在一起了(高通量數據中批次效應的鑒定和處理 - 系列總結和更新)。
測序環節通常不需要自己操作,測序公司都很成熟,但測序的原理需要知道。這會影響到后續分析時參數的選擇,比如知道什么是插入片段大小,什么是鏈特異性測序,什么情況會有接頭序列,雙端測序如何測等。
獲得數據后,就涉及到數據的傳輸和質量評估(也包括如何從公共數據庫下載數據)和文件格式的轉換。FASTQ格式解釋和質量評估中有些提及。質量評估的意義在于從測序質量角度評價建庫和測序的成功與否,指導接頭和低質量堿基的去除。這一步參數控制的嚴格與否對后續的比對會有影響,同時也會受到后續分析選擇的工具的影響。對Linux系統一定程度的了解,是進行這些工作的基礎。
39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強)中講述了如何選擇、評估合適的比對工具,序列拼裝工具,定量工具和差異分析工具。值得我們在進入正式的分析之前,仔細閱讀。另外類似的評估文章,還有幾篇,都可以一并讀一下,這樣在后期分析時對工具的選擇和使用才更得心應手。
工具比較類文章一般只告訴你做了什么,不告訴你這么做的原因是什么,而且每一步細分開來又有很多小細節需要注意,比如在比對環節就會涉及到:不同的樣本如何選擇合適的基因組和注釋文件,什么樣的軟件支持Junction reads的比對,什么樣的比對率是合適的,比對質量怎樣,測序中RNA有無降解或選擇偏好性,測序飽和度如何等。
這些可能都不會體現在最終的結果中,但都是確保后期結果可靠性所必須要做的事情。2002年諾貝爾獎得主Sydney Brenner曾對數據分析做過提醒Garbage in, Garbage out。軟件是死的,提供了格式正確的輸入,就可以得到輸出,但輸出正確與否,就得靠人的經驗來判斷了。
在后面的差異基因鑒定階段,還存在把FPKM值轉換為整數再提交給DESeq2做分析的,軟件不報錯,但結果不對。或者能順著教程運行DEseq2分析,但換成自己的數據就不知道如何下手的 (DESeq2差異基因分析和批次效應移除)。這些問題都需要在實踐過程中持續不斷的試錯、的文章和教程來步步矯正。
做下測試題看看了解多少?
120分的轉錄組試題(第一份答案)
120分的轉錄組試題(第二份答案)
120分的轉錄組試題(第三份答案)
這當然是一個耗時耗力的過程,那么有沒有一個更好的方式呢?
那就是第十四期高級轉錄組分析和R數據可視化
(部分視頻可在B站空間免費查看:https://www.bilibili.com/video/BV1rD4y1272a)
基于以往13次轉錄組培訓,轉錄組課程內容成熟,可以在最短的時間學會最多的知識。
之前的培訓重點都在前面的流程分析,這次做了調整,流程分析整理一個清晰的輸入、輸出框架,包裝好的流程腳本和參數注意,快速實戰操作從源頭。重點調整到后續的定制分析和繪圖,涉及常見GO分析、單細胞轉錄組的聚類分析、配對樣品和時間序列樣品的GSEA富集分析、結合motif預測和轉錄因子ChIP的調控網絡分析、定制化圖形繪制、Cytoscape進行富集分析、調控網絡、通路的可視化,目標基因篩選和可視化, WGCNA加權共表達網絡分析,機器學習,ceRNA網絡。
每部分都提供清晰的思維導圖方便理解輸入、輸出、命令、參數和注意事項。
后續在我們的培訓群也會提供長期的免費圖形繪制合作服務,跟大家分享繪圖代碼,一起學習。
第十四期高級轉錄組分析和R數據可視化在于2021年7月30日在線開班,將系統講述基于和不基于比對的轉錄組分析流程,從原始數據到表達矩陣、差異基因、可變剪接、富集分析、加權共表達網絡、通路分析、可視化繪圖,ceRNA,機器學習等一系列常見操作,理論和實踐兼備。
課程大綱
請詳細閱讀課程簡介,如果以下內容您全精通,不必參加此培訓。
每節課1小時一個主題,理論結合實戰,學懂原理,實戰實操,全是老司機多年經驗、流程和代碼的無私分享,手把手帶您快速入門、節約寶貴的時間,助力科研成果早日產出。
下面是課程安排,本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(只要課上講的都是可以學會并自己實現的分析)。如11代表第一天第一節課,26代表第二天第六節課,41為兩周后的不定期線上集中視頻答疑和后續的討論群永久答疑。
該課程為第13期,經過12次迭代更新,整個過程都比較成熟,可以在最短時間學習最多知識。3天時間,老司機帶您完成自學需要3個月甚至是1年的崎嶇之路,助力您真正玩轉轉錄組分析,并根據自己課題的背景優化分析方案。
| 01 | 視頻學習Linux基礎 | 預付后提供學習視頻 |
| 02 | 視頻學習R基礎 | 預付后提供學習視頻 |
| 03 | 軟件安裝 | 預付后提供安裝視頻 |
| 04 | 支付全款 | 提供全部視頻用作預習 |
| 11 | 轉錄組概述 | 轉錄組設計、應用、批次效應等 |
| 12 | 轉錄組分析流程簡介 | 基于/不基于比對的分析流程講演 |
| 13 | Salmon定量實戰 | 不基于比對直接定量基因和轉錄本的表達 |
| 14 | 差異基因分析 | DESeq2多組差異基因分析、熱圖、火山圖 |
| 15 | GO富集分析和可視化 | 泡泡圖、熱圖、網絡圖、弦圖 |
| 16 | GSEA富集分析和可視化 | 分組和時間序列GSEA |
| 21 | 二代三代測序原理介紹 | 建庫測序過程及注意事項 |
| 22 | 原始數據比對回基因組 | STAR比對和定量 |
| 23 | 基于count的差異基因 | 批次效應鑒定和移除 |
| 24 | Linux下轉錄組環境配置 | Conda軟件安裝、配置 |
| 25 | 基因組瀏覽器數據可視化 | IGV呈現reeads比對、峰圖、Sashimiplot |
| 26 | 轉錄本拼裝StringTie | 可變剪接分析rMATS |
| 31 | 文章常見圖表繪制和解讀 | Illustrator制作CNS標準圖版 |
| 32 | WGCNA基因加權共表達 | 網絡分析和性狀關聯 |
| 33 | 非編碼lncRNA鑒定 | ceRNA分析 (miRNA-lncRNA-gene調控) |
| 34 | 無參轉錄組分析 | Trinity組裝 eggnog注釋 |
| 35 | 轉錄調控分析 | 轉錄調控網絡 |
| 36 | Marker基因鑒定 | PCA,隨機森林 |
| 41 | 答疑-線上 | 答疑、考試內容串講 |
教程內容簡介如下:
轉錄組分析平臺搭建
服務器平臺:沒有軟件的計算機只是一堆廢鐵,沒有轉錄組分析系統的服務器也和你的數據分析沒有半毛錢關系。想要搭建整套的轉錄組分析流程,網上的資源即零散、又稀少。易生信團隊將分享多年經驗摸索優秀軟件和布置技巧,并分享全部源代碼,讓你在主流Linux服務器系統(Ubuntu 16/18.04,CentOS7等主流發行版)上快速布置專注組分析流程依賴的幾十款常用軟件、幾百個依賴的R和Python包,輕松擁有專業分析平臺。
個人計算機平臺:高通量測序所謂的大數據,都是在原始數據和分析過程中體量大,計算資源需求多,但結果文件不大。通常轉錄組分析會獲得樣品基因表達表、新轉錄本和非編碼基因,這些表格是下游分析、高級分析以及個性分析的起點,絕大部分工作在我們的筆記本上是可以搞定的,只是很多人并不知道如何入手。
其實你的個人電腦就是數據表(豐度矩陣)統計分析的利器。易生信團隊獨創實現了跨平臺的分析流程,在大家的Windows筆記本上可以輕松實現轉錄組統計、可視化的絕大多數分析,課程帶你輕松在自己的本本上搭建數據表統計分析與可視化平臺,基于目前最主流的Win10進行優化和測試,讓筆記本秒變數據分析可視化平臺。
生信基礎知識
有了生信分析平臺,如何靈活運用還是要學點獨門絕學的。21世紀最重要的是人才,人才最好掌握三門語言,將讓你人生立于不敗之地,在任何團隊中都是不可或缺的人才。這三門語言就是中文、英文和計算機語言。中文每天都在用在學,英文對于博士也至少接觸了10年以上并能應用于閱讀和寫作文獻,而編程語言大家大學階段都學過Visual Basic、Visual Foxpro、或C語言,但能在工作中應用的絕對鳳毛麟角。更何況這些語言在生命科學領域是非常低效的,不提倡學習。
生信中最常用的三類語言是·Shell + R + Python/Perl·,前兩門是基礎,生物學家必要掌握的Shell和R語言基礎知識,保證你完成項目分析。我們在課上將同時講解生物學家必要掌握的Shell和R語言基礎知識,保證你高效、穩定的使用轉錄組分析平臺、保證大數據分析和后期可視化至發表階段所需的技能。我們在文后提供了學習視頻供提前預習。
當你利用幾個小時,走進大數據分析和可視化的大門后,你將發現一個全新的世界。很多人會感覺相見恨晚,愛上分析,從此走向人生的快車道。即使你對編程不感興趣,這里面用到的理念也定能讓你受益終身,在今后相關分析中事半功倍,比別人更勝一籌。再說現在連小學生都學Python了,再不會,孩子都帶不好了。
(如果基礎薄弱,報名付款成功后,可免費領取基礎程序課,做好準備工作,?讓程序成為我們的得力工具而不是學習新知識的絆腳石。)
圖表解讀和繪制專題
針對很多老師缺少系統的生信背景,看不懂分析文章圖表,更對繪制各式圖表手足無措的情況,在培訓時,我們將結合發表的高水平文章,進一步講解16種常用分析圖的原理和使用范圍,讓你不僅讀懂圖,更知道如何應用于自己的研究,并親自輕松完成繪圖。
針對大家使用R語言繪圖學習時間成本較高的問題,易生信團隊針對常用16種圖開發了免費繪圖網站,一鍵出圖,更可鼠標點選參數修改圖形的個性樣式。
成果發表是科研過程中不可缺的一部分,發表成果又少不了圖形展示。文章圖表排版是否整齊規范、協調一致、重點突出對一篇文章的發表也是有不少貢獻的。之前推出的文章發表圖的修改和排版講演了部分圖形編輯和排版操作,本次培訓也會實踐從原始圖形、到細節修飾再到排版發表的整個過程和注意事項。
轉錄組高級分析
WGCNA基因共表達分析,WGCNA基因、表型關聯分析
Cytoscape繪制ceRNA、轉錄調控、蛋白蛋白互作網絡
Cytoscape 共表達網絡繪制
KEGG/Reactome通路圖表達映射
基因互作的文獻挖掘和數據庫挖掘展示
GO/GSEA(普通分組、數量形狀和時間序列)的定制分析
轉錄組的應用、設計和案例分享
轉錄組是很常規的分析,也是入門高通量測序分析的基礎。這部分涵蓋整個高通量測序技術的應用,高通量測序技術的實驗原則包括測序通量、測序批次、測序原理等。
轉錄組學研究技術介紹
轉錄組學實驗設計和測序原則、注意事項
二代、三代測序過程和原理解析
轉錄組學文章案例分析
在線基因表達資源數據庫
轉錄組分析流程實戰
轉錄組分析流程評估
測序數據質量評估和清洗
不基于比對的差異基因分析
基于比對的差異基因分析
轉錄本組裝、選擇性剪接分析和非編碼RNA鑒定
目標基因GSEA/GO富集分析
學習完本課程,你能得到什么?
深徹理解生物測序數據的基本思想和分析流程
高級轉錄組分析和可視化的全套流程
應用于各個領域的分析經驗、代碼和發表級別的結果可視化
往期精彩回顧
學員主要來自中國大陸各高校和研究所的院長、教授、副教授、研究所和本科生,也有來自茅臺、五糧液、安琪酵母、華為等大廠的科研人員,甚至有海外華人不遠萬里從美國、歐洲、澳州、新西蘭、新加坡等地飛來北京參加專題學習研討會。
主講教師
陳同,博士,2015畢業于中科院遺傳與發育生物學研究所,生物信息專業博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research X 3,Protein& Cell, Stem Cells and Development等高水平雜志以第一作者或主要作者發表文章,運營有十萬人關注的《生信寶典》微信公眾號,給你不一樣的學習生信體驗。
授課模式
線上線下同步開課,線上采用騰訊會議直播。整個過程都會錄屏,視頻可無限期觀看,供后續反復觀看學習。
本課程以講解流程和實際操作為主,采用獨創四段式教學,封裝好的代碼全部分享,隨處可用:
第一階段 3天集中授課;
第二階段 自行練習2周;
第三階段 在線直播答疑;
第四階段 培訓視頻繼續學習;
實現教-練-答-用四個環節的統一協調。
培訓時間
每天早9點到晚5點
授課地點
北京市西城區鼓樓附近(鼓樓地鐵站周邊1公里)。
線上線下同步開課,線上采用騰訊會議直播。整個過程都會錄屏,視頻可無限期觀看,供后續反復觀看學習。
課程價格
開課兩周前報名 4500 元/人
名額有限,每次課程報名滿40人后自動關閉報名通道
提供易漢博基因科技實習機會或工作機會
課程福利
線下座位按報名并繳費或預付款成功順序從前到后龍擺尾式排序 (線上直播不排座位)
贈送對應課程往期視頻課一份 (http://bioinfo.ke.qq.com)
多人 (N,10>N>1) 組團報名并同時繳費,每人還可減免N-1百元 (最高500)
線下課程贈送金士頓U盤一個(32G含培訓數據和腳本);
線上的培訓數據和腳本通過QQ群文件共享,內容與線下的U盤完全一致
附推薦語分享對應的招生信息到朋友圈,截圖發到train@ehbio.com 可獲得200元生信寶典騰訊課堂課程優惠券(可拆分供多個課程使用)
易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;
三門課9折,4門及以上85折。
還可與團購同時優惠!
擴增子(項目初探)+宏基因組(高精尖),祝你分析水平更上一層樓。
注意事項?*
需自備筆記本電腦,推薦使用win10系統,4G以上內存(推薦8G)。
培訓班所有數據,文檔為內部資料,僅供參閱,未經允許不得翻印外傳登刊
上課期間禁止錄音,錄像
成功付款的學員,若臨時有緊急事情不能到來的,可申請延期,更換后續培訓班;
也可申請退款
若開課2周 (含) 前申請退款可退還85%費用;
開課3個工作日 (含) 前申請退款退還70%的費用 (若已開發票需承擔相應手續費)
不可先延期再退款
更多課程的詳細介紹,請掃描下方二維碼。
易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;三門課9折,4門及以上85折。還可與團購同時優惠!擴增子(項目初探)+宏基因組(高精尖),祝你分析水平更上一層樓。
復制以下鏈接http://www.ehbio.com/Training/ 或 點擊閱讀原文跳轉報名頁,成為實驗中不可或缺的人,趕快報名吧!
?
(有問題掃碼咨詢;因課程聯系人數較多,若回復不及時請耐心等待;大部分一文也都可在培訓網站或報名回復郵件中查詢到)
總結
以上是生活随笔為你收集整理的最后一周!导师推荐的转录组和可视化学习捷径的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 局域网samba配置,以及在Window
- 下一篇: 旋转数组