1. TCGA数据库介绍
肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型。
TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的“图谱”。
TCGA临床数据有两种:
数据文件有 (HTSeq count/ FPKM/ FPKM-UQ)3种
介绍链接
生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。
RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)
使用Affymetrix SNP 6.0芯片,基于TCGA level 2 数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)
包括以下几个平台:
文件包括以下这些列:
2. 资源|基础研究常用数据库汇总
分子生物学是研究生命现象本质的科学,其基础是中心法则,涉及到基因信息、基因表达、基因功能分析、转录因子、miRNA分析与预测等多个方面。为支持分子生物学研究的发展,强大数据库的构建至关重要。
基因信息的查询主要依赖于三大数据库:GeneCards、BioGPS和UCSC Genome Browser。GeneCards提供全面的人类基因信息,整合了约150个在线基因中心数据,包括基因组、转录子、别名、结构域、药物、表达和定位等信息。BioGPS是一个自由拓展和定制的基因注释网站,主要包含人类、小鼠和大鼠的基因。UCSC Genome Browser是一个交互式基因组浏览器,提供了多种脊椎动物、无脊椎动物和主要模式生物的基因组序列数据。
基因表达信息可通过Gene Expression Omnibus(GEO)、ArrayExpress和The Cancer Genome Atlas(TCGA)获取。GEO是一个公共功能基因组数据库,支持符合MIAME标准的数据提交,并提供工具帮助用户查询和下载实验并设计基因表达谱。ArrayExpress归档芯片和测序平台的功能基因组学数据,以支持可重复的研究。TCGA网站绘制出33种癌症关键基因组变化的综合多维图谱,旨在应用高通量基因组分析技术,帮助人们更好地了解癌症。
基因功能分析可以通过DAVID、Metascape和XTalkDB等工具进行。DAVID提供全面的功能注释工具,能够确定生物学主题、发现功能相关基因组、群集冗余注释术语、在BioCarta和KEGG信号通路图上实现基因可视化,并在二维视图上显示相关的多个基因。Metascape是一个免费的基因注释和分析资源库,旨在帮助生物学家理解一组正交蛋白发现研究中的常见或独特途径和蛋白质网络。XTalkDB研究信号通路间相互作用,为系统生物学研究提供重要支持。
转录因子的研究主要依赖于iRegulon、TFcheckpoint等数据库。iRegulon包含转录因子及其直接转录DNA序列组成的数据库,并提供插件识别调节子。TFcheckpoint则是人类、小鼠和大鼠转录因子数据库,手动检索可以获得数据。
miRNA分析与预测的数据库有starBase、miRTarBase、miRWalk、miRBase、TargetScan和DIANA。starBase研究miRNA-ncRNA、miRNA-mRNA、ncRNA-RNA、RNA-RNA、RBP-ncRNA和RBP-mRNA相互作用。miRTarBase是经过实验验证的microRNA-target相互作用数据库。miRWalk提供已验证和预测的miRNA结合位点信息。miRBase是已发表的miRNA序列和注释的数据库。TargetScan通过搜索miRNA的种子区域匹配的保守位点预测miRNA的靶点。DIANA是miRNA研究工具的集锦,提供microT-CDS预测、LncBase v.2、miRGen v.3和Mirpub等功能。
除了基因相关数据库,L1000FWD和MalaCards两个数据库也值得关注。L1000FWD提供超过16,000种药物和小分子诱导的基因表达特征,可实现直观化与可视化的功能。MalaCards是人类疾病综合性数据库,整合了专业和一般疾病信息。