2022年Nature Methods杂志发布年度最佳方法,长读长测序技术(Long-read sequencing)荣获这一荣誉。得益于读长增长、成本降低,如今的基因组测序可谓是走下神坛,“飞入寻常百姓家”。据不完全统计,2023年共发表动植物基因组文献272篇,其中“T2T基因组”的数量为39篇,“泛基因组”的数量为21篇、“单倍型基因组”的数量为21篇、“多倍体基因组”的数量为16篇。
图1 2023年基因组研究热点发表数量
1T2T基因组
基因组组装难点
基因组测序是生物学研究的一个重要手段,基因组组装是从测序reads中重构生物体基因组序列的过程。在基因组组装过程中,端粒、着丝粒、rDNA区域的组装难度较大。端粒是真核生物线性染色体的末端部分,由简单的DNA高度重复序列组成,这一特殊结构区域对于线型染色体的结构和稳定起重要作用。着丝粒是维持基因组稳定的关键染色体区域,富含高度相似的重复序列。rRNA基因区域是具有重要功能的保守重复序列, 成簇分布于一对或多对染色体上。由于重复序列的序列相似性高、长度不一、拷贝数变化范围大,二代读长较短,因此这三个区域一直是组装中的难题。相比于二代测序技术,三代长读长测序可以跨过重复序列区域。
图2 组装难度大的基因组区域
T2T基因组
物种参考基因组一般会经过从基因组草图到近完成图再到端粒到端粒基因组的阶段。端粒到端粒的基因组指的是结合多种测序技术,实现一条或多条染色体端粒到端粒水平组装的0 gap基因组。实现完美基因组的组装,有利于对基因组中高度重复序列区域进行深入研究,有利于解析着丝粒和端粒等复杂结构的变异特征和进化模式。
图3 基因组组装的四个阶段
2023年发表文献汇总
典型案例
题目:A complete assembly of the rice Nipponbare reference genome
发表期刊:Molecular Plant
发表时间:2023年08月
研究策略:Illumina(~63.7×)+ONT超长(~221×)+HiFi(~85.5×)+Hi-C(~94.3×)
组装水平:2n=24(12条T2T)
主要研究结果:
研究者以日本晴为材料,结合高深度HiFi测序和ONT测序,完成了水稻基因组的完整组装,其基因组大小为385.7 Mb。最新的组装新增了12.5Mb的基因组序列,主要解锁了水稻基因组中结构最为复杂的rDNA序列、着丝粒区域、复杂TE序列和端粒区域等。得益于基因组完整性的提升,AGIS-1.0修正了多个由于缺口导致的基因结构错误,并在过去高质量注释的基础上新增1,324 个蛋白编码基因,其中非rDNA区域存在314个基因。
图4 “日本晴”完整基因组组装AGIS-1.0及其新增序列组成
2泛基因组
单一线性参考基因组的局限性
参考基因组指的是高度连续的、精确的和注释的基因组集合。由于样本选择的限制,参考基因组只能代表单个样本的全部遗传信息,无法包含群体中所有个体的基因序列变化情况。在漫长的进化过程中,某一物种不同品种之间因自然变异、人工选择、环境变化形成品种特有的遗传性状,决定品种特有性状的变异可能涵盖一个或多个基因。以单一的参考基因组进行遗传和驯化变异的研究可能会丧失许多变异信息。
泛基因组
通过整合同一种内多个个体的基因组信息,建立能够尽可能多囊括该物种基因组序列和信息的完整集合,有助于全面理解关键物种中重要性状的形成机制。在所有个体都存在的基因定义为核心基因,在1个以及1个以上的个体中存在的基因定义为非核心基因。核心基因控制着物种基本生成代谢的功能,非核心基因与个体特有生物学性状有关。
2023年发表文献汇总
典型案例
题目:Gene mining and genomics-assisted breeding empowered by the pangenome of tea plant Camellia sinensis
发表期刊:Nature Plants
发表时间:2023年11月
研究策略:Iillumina + PacBio(CLR, ~53X) + Hi-C
主要研究结果:
该研究采用PacBio和Hi-C等测序技术完成了18个代表性茶树品种的高质量基因组组装,并对4个已发表的茶树基因组(LJ43,SCZ,HD和TGY)进行重新注释。分析发现,所有组装的茶树基因组中包含大量重复序列,其中长末端重复序列(LTR)占比达到50%以上。通过结构变异分析,研究者共鉴定出887,986个结构变异(SVs),大多源于转座元件(TEs),均匀分布在15条染色体上。为了协调不同基因组之间的等位基因,研究者进一步构建了茶树泛基因组,并基于茶树泛基因组对155个重测序样本的芽期(TBF)性状进行全基因组关联分析(pan-GWAS),通过鉴定出33个显著SNPs获得与早芽萌发相关的QTL。此外,研究者基于SV进行pan-GWAS鉴定到一个与早芽(EBF)相关的基因。该研究揭示了pan-GWAS在识别茶树性状相关遗传变异方面的效率。
图5 茶树泛基因组GWAS挖掘
3单倍型基因组&多倍体基因组
单倍型基因组
动植物基因组非常复杂,基因组大小、杂合度、GC含量、倍性等都会影响着基因组组装难度和结果。以往大多采用二倍体或多倍体材料直接进行测序组装,组装结果混杂了双亲等位基因组的嵌合序列,不能准确代表原始的单套染色体序列,而且可能会引入错误的基因注释信息。此时如果能进行单倍型基因组组装,不仅能降低组装难度,能获得两套序列集合。单倍型基因组的组装对于单倍型之间结构变异分析、多倍体起源进化研究、有害突变研究以及探究杂种优势形成的分子机制具有重要的意义。
图6 嵌合基因组和单倍型基因组
单倍型基因组组装方法
自然界中, 绝大多数动物和过半数的高等植物都是二倍体,即体细胞中含有两个染色体组的个体。体细胞中含有三个或三个以上染色体组的个体称为多倍体,染色体组来自同一祖先的为同源多倍体,染色体组来自不同祖先的为异源多倍体。
二倍体基因组的单倍型组装有两种策略:(1)在已有父、母本基因组信息的前提下,使用HiFiasm-Trio模式进行组装;(2)没有亲本数据,但有Hi-C数据,使用HiFiasm-Hi-C模式进行组装。
多倍体基因组的单倍型组装主要有两种策略:(1)在有二倍体近缘物种染色体水平参考基因组的前提下,采用ALLHIC流程完成分型;(2)采用SubPhaser搜索亚基因组特异性序列(k-mer),将同源染色体分配到亚基因组中。SubPhaser对含有亚基因组特异性序列的异源多倍体和同倍体杂种(如小麦)效果很好,但对缺乏亚基因组特异性序列的同源多倍体(如紫花苜蓿)效果不好。
2023年发表文献汇总
典型案例
题目:Haplotype-resolved chromosome-level genome assembly for the hexaploid Jerusalem artichoke provides insights into its origin, evolution and inulin metabolism
发表期刊:Plant Communications
发表时间:2023年11月
研究策略:Illumina+HiFi(15.3×)+Hi-C
主要研究结果:
研究者首先利用HiFi数据进行六倍体菊芋基因组的contig组装,然后利用Hi-C数据将初步组装结果挂载到染色体水平,最终获得了包括102条染色体的菊芋基因组。去除一半的杂合染色体,菊芋参考基因组组装大小为10.5 Gb,共含有199,842个蛋白编码基因,菊芋基因组大小和基因数目均为向日葵基因组的3倍。同源染色体单拷贝直系同源基因的进化分析表明,最近的这次三倍化其实是菊芋二倍体与四倍体祖先发生的种间杂交和染色体加倍事件,故菊芋基因组包含了A1, A2和B共3个亚基因组。它与向日葵属内大规模染色体断裂融合、转座子活动、基因突变和人工驯化选择等过程一道,共同塑造了现在的六倍体菊芋基因组。
图7 六倍体菊芋的杂交起源