DNA甲基化作为表观遗传的一种方式,也为疾病的诊断和治疗提供了新的途径。而DiseaseMeth是一个专注于人类疾病的综合性甲基化数据库,其涵盖了人类DNA甲基化疾病数据和来自公开数据集的原始数据。该数据库由哈尔滨工业大学生命科学与技术学院的张岩教授课题组开发并维护,并于2012年在《NAR》首次发布。为了提供更加全面的疾病甲基化信息,张岩教授课题组对数据库进行更新,发布了全新的人类疾病甲基化数据库DiseaseMeth version3.0(http://diseasemeth.edbc.org/)。
自2012年DiseaseMeth数据库创建以来,其一直致力于发现疾病中的关键DNA甲基化标记。期间开发人员对数据库进行过一次更新,将其升级到DiseaseMeth2.0版本。自更新以来,随着DNA甲基化微阵列和高通量测序的成本不断下降,有关甲基化数据的数量也在与日俱增。因此,基于甲基化数据量的大幅增加,开发者们也针对DiseaseMeth数据库进行了第三次更新并发布了DiseaseMeth3.0版本。
本次数据库的更新是对DiseaseMeth的一次重要扩充。在数据方面,不仅整合了包括TCGA、GEO等公共数据库的高通量疾病甲基化大数据,而且通过人工方式从PubMed网站上搜集整理了有关文献的甲基化数据。相较于2.0版本,本次版本所记录的人类疾病从88种增加到162种,收集的样本总数从32701例增加到49949例甲基化谱样本数。除数据更新外,开发者们对所收集的患者临床数据进行了详细分析,探讨了DNA甲基化对患者预后的影响。同时升级了疾病甲基化谱可视化浏览器DisMethBrowser使其更加快速稳定,还建立起了标准化的DNA甲基化数据分析流程,用于确定疾病中差异甲基化的基因,此外提供了新工具用于注释差异甲基化基因的生物学过程和途径、确定DNA甲基化介导的疾病关联网络WDAN和基因的癌症预后分析与共甲基化模块确定。
数据库的主页如上图所示,在数据库的主页上有检索(Search)、分析(Analysis)、疾病甲基化浏览器(DisMethBrowser)、工具(Tools)和数据下载(Download)五个板块。可以看到整个页面设置的简洁明了,便于广大用户操作。接下来我们就来围绕它们进行展开介绍:
1. Search板块
检索方式一共有四种,基因检索(Gene Search)、疾病检索(Disease Search)、功能检索(Function Search)、高级检索(Advance Search)。
在基因检索上,我们可以输入基因符号(基因名称/转录本ID)或基因组位置,以获得数据库疾病样本中该特定基因的甲基化水平。输出将显示为表格和热图。基因的 DNA 甲基化水平由热图表示,它可以显示所有包含的疾病中特定基因的 DNA 甲基化水平的差异。
我们以MGMT基因为例,进行检索,如图所示,可根据基因symbol或基因所在位置进行检索,确定我们所想要查找的信息,这边我们选择“all”。点击“search”就可显示出结果,这里以表格的形式列出了MGMT在不同疾病中的甲基化水平及差异信息,同时选中相关疾病便点击“analysis”可进入分析工具栏中,页面往下可以看到MGMT在不同疾病中的甲基化谱。
在疾病检索中所选中的疾病与对应差异甲基化基因(DMG)的DNA甲基化水平可以通过热图展示。在该功能中,可以具体检索包含癌症在内的不同疾病与感兴趣基因甲基化之间的联系。
功能检索为本次版本更新所新开发的功能,其基于GO和KEGG对DMG的生物学过程和途径进行了注释。所有DMG的功能富集信息都在DiseaseMeth 3.0版本中进行了本地化,我们只要输入感兴趣的疾病,就会立即显示功能丰富的结果。此外,包括基因符号、GO 术语和通路 ID 在内的其他查询参数可用作更精确的查询要求。
高级检索则可以进行更具体的查询。通过输入一个或多个符合条件的条目,即基因名称/转录本ID、基因组位置、疾病类型和技术,帮助用户快速获取所需数据集。
2. Analysis板块
该模块能够进行不同基因在不同癌症中的甲基化水平分析,功能界面如下。
开发者建立了统一的、标准化的流程来分析DNA甲基化数据。根据数据的不同来源,主要分为两种流程:
第一种是针对来自微阵列技术的Illumina Infinium HumanMethylation27 BeadChip,450 BeadChip和850 BeadChip数据,分析流程如下:
(1)从公共数据库下载原始数据和参考平台数据。
(2)将DNA甲基化水平统一表示为一个值。
(3) 使用R包sva集成来自不同批次或不同数据库的DNA甲基化数据,以消除批次效应。
(4)使用KNN算法填充缺失值,确保使用具有丰富甲基化水平的高质量探针,通过差异分析确保更准确的结果。
(5) 使用R包ChAMP和minfi分析和识别DNA甲基化差异位点和区域。鉴别标准是两组样本的均值差大于0.2,校正后P值<0.05。
(6)保留位于启动子区域(TSS1500、5 UTR、1st Exon和TSS200)的差异甲基化位点的交叉点。
(7)定义每个基因对应的所有启动子区域的探针甲基化水平的平均值作为其甲基化水平。
第二种是针对DNA甲基化测序数据,包括全基因组甲基化测序技术(Whole Genome Bisulfite Sequencing,WGBS)和简并代表性亚硫酸氢盐测序技术(Reduced representation bisulfite sequencing, RRBS) ,数据分析流程如下:
(1)下载相应子序列平台的原始测序数据。
(2)使用Bismark软件将亚硫酸氢盐处理的测序读数映射到 Genome Reference Consortium Human Build 38 (GRCh38) 并提取甲基化值。
(3)使用SMART2挖掘疾病和对照样本之间的差异 DNA 甲基化区域。
(4)保留了位于启动子区域(TSS1500、5'UTR、1st Exon和TSS200)中的差异甲基化区域的交叉点。
(5)用差异甲基化区域的平均值计算基因的DNA甲基化水平。
基于以上两种分析流程,开发者在该部分进行了不同基因在不同疾病中的甲基化水平分析。我们可以在Disease选项选择一个或多个感兴趣的疾病;输入基因名称/转录本ID /基因组位置用于设置感兴趣的基因组区域;选择检测数据的技术方法进行分析。该数据库提供4种检验方法,包括t检验,minfi,samr和edgeR,确定好有关阈值便可进行分析。开发者总共从所收集的所有数据中鉴定了 99 种疾病中具有显著差异 DNA 甲基化的 22718 个基因。
分析的结果以表格的形式展示了基因在各种疾病中的DNA甲基化水平差异,并对两组样本之间DNA甲基化水平进行了可视化。结果表中的主要结果包括探针ID、显著性P值和校正后P值,以及非常重要的结果。当我们选择多种疾病时,可以获取疾到病间常见差异基因的DNA甲基化相关性以及疾病间的相关性。
3. DisMethBrowser板块
如下图所示,左侧以DMxxx开头的是样本,水平的(淡)红线表示甲基化水平为1。可以通过底下“Add Samples”添加样本或者对单个样本进行展示、移除、隐藏等操作。
4. Tools板块
该功能包含本DiseaseMeth3.0两个独立开发的新工具:甲基化疾病相关性(Methylation Disease Correlation)和癌症预后与共甲基化(Cancer Prognosis & Co-Methylation)。
研究发现,不同组织中的疾病可能表现出相似的整体DNA甲基化模式。因此开发者们开发了一种跨疾病的网络分析工具——甲基化疾病相关性分析。其通过计算 Jaccard 相似性测试,使用DMG的交集和并集对99种疾病与22718个DMG进行配对,从而获得疾病之间的相关性。如果两种疾病之间存在显著关联,则将这两种疾病连接起来形成疾病关联网络。对于网络中与疾病一步关联的疾病,可以筛选出其中任意两种疾病的Jaccard系数,形成完整的DNA甲基化介导的疾病关联网络(WDAN)。如下图所示,这里选择乳腺癌和卵巢癌进行相关性分析,可得到疾病关联网络。
在癌症中经常能观察到DNA甲基化模式的扰动,这些扰动往往暗示了致癌作用。因此,DiseaseMeth3.0版本提供了癌症预后和共甲基化工具。开发者们从TCGA数据库中挖掘了31种癌症的有关信息,对数据库中所有癌症的DMG进行Pearson相关性分析形成各癌症的共甲基化网络,保留p<0.01、cor>0.6的基因对,从而分别形成31种癌症的共甲基化网络。因此该工具提供了不同基因的DNA甲基化水平在癌症中的生存分析和其他临床因素的相关性分析,以及在DMG共甲基化网络中共甲基化模块的挖掘。我们可通过生存分析和基因模块挖掘从中挖掘不同癌症中的关键DNA甲基化基因,通过选择癌症名称、不同临床因素(如分期、年龄、生存时间或模块等)进行分析。对于得到的分析结果,我们可以下载模块列表的文本文件进行查阅。其界面如下图所示。
5.Download板块
最后就是下载功能了,这些数据来源于TCGA、GEO和其他数据库,同时标注所对应的疾病,右边提供了下载的链接,我们可下载自己所感兴趣的疾病甲基化数据集。模块界面如下。最右边的Help板块能够为初学者提供帮助和操作指南。
以上就是DiseaseMeth数据库主要功能的简单介绍了,该数据库操作起来容易上手,并且也提供了丰富的信息。如想要进一步探究有关于人类疾病甲基化的相关分析,可以前往该数据库体验。
参考文献:Xing, J., Zhai, R., Wang, C., Liu, H., Zeng, J., Zhou, D., Zhang, M., Wang, L., Wu, Q., Gu, Y., et al. (2021). DiseaseMeth version 3.0: a major expansion and update of the human disease methylation database. Nucleic acids research.
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论