在系统发育分析时缺失数据普遍存在于很多数据矩阵中,其对系统发育关系准确性的影响研究是长期以来备受关注的难题。对数据分析通常应该包括尽可能多的基因片段,同时使整个矩阵中的缺失数据最少。但是,到目前为止,通过增加包含缺失数据基因片段后对系统发育关系准确性的影响的研究较为匮缺,尤其是利用似然法对多基因片段联合矩阵而构建的系统发育关系的分析。
在中国科学院昆明植物研究所李德铢研究员、王红研究员和美国亚利桑那大学 John J. Wiens 教授指导下,该所博士研究生蒋伟,利用酵母和蔷薇目两个系统发育关系解决较好的经验数据矩阵,探讨了缺失数据对系统发育关系准确性的影响。该研究将不同比例的缺失数据人为地引入到不同数目的基因片段中,检测增加或去掉包含缺失数据的基因对系统发育分析的利与弊。同时,寻找缺失数据在数据不全基因片段中的比例,即增加它们对系统发育关系分析产生利弊的可能的阈值,以及缺失数据是否对系统树枝长的估计产生影响。
研究发现,在系统发育分析中增加包含缺失数据的基因片段与去掉这些片段相比,前者提高了系统发育关系的准确性,在整个矩阵包含很多含缺失数据的基因片段情况下尤其显著。增加包含缺失数据的基因片段更有助于解决由于信息位点不足等因素造成的系统发育关系未得到解决的节点。而且,也没有发现缺失数据对枝长的估计产生明显的影响。因此,该研究不支持传统上认为的去掉数据不全的基因片段是一种更安全的,或更保守的观点。
以上研究结果以Should genes with missing data be excluded from phylogenetic analyses? 为题,发表在分子系统发育国际主流刊物 Molecular Phylogenetics and Evolution 上。该研究得到了国家重大科学研究计划项目(2014CB954100)、中国科学院重点部署项目(KJZD-EW-L07)、国家自然科学基金(40830209)等资助。
文章链接
含不同比例的缺失数据基因片段对8个酵母物种系统发育关系准确性的影响