线粒体含有自身的遗传物质,在人类的生命活动中扮演着重要的角色。对mtDNA全基因组测定分析已成为医学、分子人类学及法医学研究中的重要手段。目前全球已有6700多个个体的mtDNA全基因组序列得到测定,相关的数据保存在公共数据库如GenBank中,可供研究者进行重新分析和挖掘。由于各种原因,某些测定的mtDNA全序列数据存在不同程度的错误,后续的分析工作如果没能充分剔除这些错误,而仅对数据库中现有的数据不加选择的进行分析,有可能会得出错误的结论。如近期Pereira等人发表的针对5140条人类mtDNA全基因组序列分析的文章(Am. J. Hum. Genet. 84, 628–640),就受到这种问题的影响。
针对这种情况,中国科学院昆明动物研究所姚永刚博士与德国Hans-Jürgen Bandelt教授、西班牙Antonio Salas博士和英国Ian Logan博士进行了一项合作研究。该研究团队通过分析GenBank数据库中一些问题较多的数据集,指出Pereira等人不加选择地利用数据库中的数据进行分析存在的多种问题。在分析工作的基础上,姚永刚等人就GenBank数据库中问题较多的mtDNA全基因组数据开出了一个长长的名录,便于后续研究者在分析时剔除这些序列。同时,姚永刚等人对研究者如何提高数据质量提出了若干建议,如向数据库提交序列之前,研究者应该对数据进行仔细的检查和精确的核对,避免错误出现。对存入数据库中的序列,如果发现错误,应该及时更正并更新。
该研究结果发表在国际著名学术期刊《美国人类遗传学》(The American Journal of Human Genetics 85, 929–933, December 11, 2009)。