DNA甲基化是一个重要的表观遗传标记,在胚胎早期发育过程中起到至关重要的作用,不同物种所采用的机制亦各不相同。因而,整合多个物种的海量甲基化数据并提供在线的数据浏览、获取及其功能分析,可帮助更多研究人员深入探析不同物种在早期发育时期的DNA甲基化差异,并揭示其DNA甲基化重编程过程与机制。
中国科学院北京基因组研究所基因组科学与信息重点实验室章张研究组、刘江研究组以及所级中心信息室组成的开发团队,在研究所高性能计算平台和大数据存储平台的有力支撑下,共同开发完成“基于高通量测序的单碱基精度DNA甲基化重编程数据库MethBank”,该成果于2014年10月在国际生物信息学领域期刊Nucleic Acids Research 在线发表。
MethBank是面向多种模式生物配子和早期胚胎多个不同发育时期的DNA甲基化组重编程数据库,整合的数据包括甲基化水平、差异甲基化区域、CpG岛甲基化水平等,全部是全基因组单碱基精度的DNA甲基化数据,且集成了其它包括基因表达信息、SNP信息等在内的相关组学数据信息。此外,MethBank提供一个支持多组学数据的交互式甲基化浏览器,能够高分辨度地实现DNA甲基化图谱以及其它相关数据的可视化。
MethBank现今整合集成了斑马鱼和小鼠各自9个不同发育时期的全基因组单碱基精度DNA甲基化数据,每个时期包含全基因组约90%CG位点的甲基化信息,且对应的数据库表存有上千万条记录,数据库存储大小分别为15G和9G。MethBank的开发建立实现了海量甲基化大数据的整合与可视化,为后续其它多个物种的大数据整合提供了流程方法和数据平台。
该项研究得到了中国科学院、科技部和国家自然科学基金委的资助。
论文链接
数据库页面