當前位置:首頁 » 基礎信息 » 學tcga需要哪些基礎
擴展閱讀
給同學發簡訊該怎麼寫 2025-01-09 04:16:51

學tcga需要哪些基礎

發布時間: 2025-01-08 09:15:58

1. TCGA資料庫介紹

腫瘤基因組圖譜 (TCGA) 計劃由美國 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)於 2006 年聯合啟動的項目,目前共計研究 36 種癌症類型。

TCGA 利用大規模測序為主的基因組分析技術,通過廣泛的合作,理解癌症的分子機制。提高人們對癌症發病分子基礎的科學認識及提高我們診斷、治療和預防癌症的能力。 最終完成一套完整的與所有癌症基因組改變相關的「圖譜」。

TCGA臨床數據有兩種:

數據文件有 (HTSeq count/ FPKM/ FPKM-UQ)3種

介紹鏈接

生成raw read counts數據記錄==在mirnas.quantification.txt==文件中。多比對用cross-mapped列標注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。

RPM counts記錄在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表達量定量分析中的所有列,除此之外還增加了isoforms的基因組坐標信息以及miRNA信息(前體或成熟&accession)

使用Affymetrix SNP 6.0晶元,基於TCGA level 2 數據,最終生成txt文件,包含5列(片段名稱,染色體,基因組位置,結合到晶元上的探針數量,seqment_mean)

包括以下幾個平台:

文件包括以下這些列:

2. 資源|基礎研究常用資料庫匯總

分子生物學是研究生命現象本質的科學,其基礎是中心法則,涉及到基因信息、基因表達、基因功能分析、轉錄因子、miRNA分析與預測等多個方面。為支持分子生物學研究的發展,強大資料庫的構建至關重要。

基因信息的查詢主要依賴於三大資料庫:GeneCards、BioGPS和UCSC Genome Browser。GeneCards提供全面的人類基因信息,整合了約150個在線基因中心數據,包括基因組、轉錄子、別名、結構域、葯物、表達和定位等信息。BioGPS是一個自由拓展和定製的基因注釋網站,主要包含人類、小鼠和大鼠的基因。UCSC Genome Browser是一個互動式基因組瀏覽器,提供了多種脊椎動物、無脊椎動物和主要模式生物的基因組序列數據。

基因表達信息可通過Gene Expression Omnibus(GEO)、ArrayExpress和The Cancer Genome Atlas(TCGA)獲取。GEO是一個公共功能基因組資料庫,支持符合MIAME標準的數據提交,並提供工具幫助用戶查詢和下載實驗並設計基因表達譜。ArrayExpress歸檔晶元和測序平台的功能基因組學數據,以支持可重復的研究。TCGA網站繪制出33種癌症關鍵基因組變化的綜合多維圖譜,旨在應用高通量基因組分析技術,幫助人們更好地了解癌症。

基因功能分析可以通過DAVID、Metascape和XTalkDB等工具進行。DAVID提供全面的功能注釋工具,能夠確定生物學主題、發現功能相關基因組、群集冗餘注釋術語、在BioCarta和KEGG信號通路圖上實現基因可視化,並在二維視圖上顯示相關的多個基因。Metascape是一個免費的基因注釋和分析資源庫,旨在幫助生物學家理解一組正交蛋白發現研究中的常見或獨特途徑和蛋白質網路。XTalkDB研究信號通路間相互作用,為系統生物學研究提供重要支持。

轉錄因子的研究主要依賴於iRegulon、TFcheckpoint等資料庫。iRegulon包含轉錄因子及其直接轉錄DNA序列組成的資料庫,並提供插件識別調節子。TFcheckpoint則是人類、小鼠和大鼠轉錄因子資料庫,手動檢索可以獲得數據。

miRNA分析與預測的資料庫有starBase、miRTarBase、miRWalk、miRBase、TargetScan和DIANA。starBase研究miRNA-ncRNA、miRNA-mRNA、ncRNA-RNA、RNA-RNA、RBP-ncRNA和RBP-mRNA相互作用。miRTarBase是經過實驗驗證的microRNA-target相互作用資料庫。miRWalk提供已驗證和預測的miRNA結合位點信息。miRBase是已發表的miRNA序列和注釋的資料庫。TargetScan通過搜索miRNA的種子區域匹配的保守位點預測miRNA的靶點。DIANA是miRNA研究工具的集錦,提供microT-CDS預測、LncBase v.2、miRGen v.3和Mirpub等功能。

除了基因相關資料庫,L1000FWD和MalaCards兩個資料庫也值得關注。L1000FWD提供超過16,000種葯物和小分子誘導的基因表達特徵,可實現直觀化與可視化的功能。MalaCards是人類疾病綜合性資料庫,整合了專業和一般疾病信息。