近日,来自广西大学作物生物信息团队与华中农业大学的研究团队合作在Journal of Experimental Botany在线发表了的题为Graph-based pan-genome: increased opportunities in plant genomics的综述文章。该综述回顾了图形泛基因组的起源和发展历程,展望了图形泛基因组在作物育种中的应用。
真核生物泛基因组通常被定义为该物种中所有DNA序列的集合。目前泛基因组的构建是将参考基因组中不存在的序列添加到参考基因组中,形成一个简单的线性序列集合,并不能很好地表征物种中的存在缺失变异信息。因此图形泛基因组的概念被提出,它基于参考序列和变异序列之间的关系,以节点代表序列信息,边代表不同序列之间的联系,以图的形式来存储泛基因组,可以有效地将参考基因组和遗传变异联系起来。
图1. 不同软件构建图形泛基因组流程
与线性基因组相比,图形泛基因组包含更多的序列和变异。通过变异注释,可以在基因组中表征更多与变异相关的信息。该综述首先总结了两种图形泛基因组的构建方法,一种是以VG和Seven Bridges为主的方法,首先根据参考基因组识别基因组变异,然后将变异添加到线性基因组进行构建;另一种是以Minigraph为代表的方法,通过将基因组与参考基因组进行比对构建图形泛基因组 (图1) 。
目前图形泛基因组的存储和可视化是主要的瓶颈问题。该综述介绍了图形泛基因组的存储格式,从GFA格式到rGFA格式,以及vg和odgi的二进制格式 (图2) 。图形泛基因组的难点之一是与线性参考基因组坐标的对应关系。图形泛基因组坐标还原目前还存在诸多难点,目前还无法准确表示片段在源基因组中的坐标,未来需要坐标系表现出更好的可扩展性,并且随着线性参考基因组的更新,对应的图形泛基因组需要同时更新节点、边和坐标。
图2. 图形数据格式展示
进一步利用minigraph构建了47个水稻的图形泛基因组,并展示了不同可视化软件工具的结果 (图3) ,总结了可视化方法、可视化软件的布局、可视化范围、可视化格式以及软件的特殊功能,讨论了图形泛基因组基因结构注释和变异注释。最后描述了目前已有图形泛基因组的规模,以及图形泛基因组结合全基因组关联分析 (GWAS) 等方法的应用实例。
图3. 图形泛基因组可视化
文章最后展望了图形泛基因组在将来育种发展过程中的应用。目前图形泛基因组构建刚刚起步,难以应用于复杂度高、基因组规模大的物种,而且尚未建立图形泛基因组的评估标准。构建图形泛基因组的目的是为了更清晰直观地了解物种的遗传多样性,但目前大多数生物信息学分析工具仅适用于线性参考基因组,图形泛基因组的下游分析需要开发更多的算法和工具。除了挖掘新的结构变异 (SVs) 及与 SV相关的表型性状外,还应开发可以与多组学数据 (蛋白质组、代谢组等) 相结合的图形泛基因组应用程序,进行多维关联分析以识别候选位点。例如在图形泛基因组中存储 DNA 甲基化和其它信息,可用于比较由不同等位基因甲基化产生的不同表型。图形泛基因组作为参考基因组是未来发展的趋势。期待图形泛基因组可以将基因组学推向新的水平,在将来的发展中可以带给人们更多的惊喜。
华中农业大学信息学院博士生王朔和广西大学生命科学与技术学院硕士生钱永清为该论文的共同第一作者,广西大学宋佳明副教授和陈玲玲教授为该论文的共同通讯作者。该项目得到了国家自然科学基金、亚热带农业生物资源保护与利用国家重点实验室自主专项及广西大学高层次人才启动研究基金等项目的支持。
论文链接:
https://doi.org/10.1093/jxb/erac412
华中农业大学研究生(华中农业大学研究生院)
评论列表 人参与