宏基因组分箱方法综述
创始人
2024-08-22 12:20:25
0

宏基因组分箱工具的历史可以追溯到2000年代初,当时它们被创建用于自动化处理从环境样本中获得的短DNA片段的分箱。

此后,各种方法被提出以分箱不同类型的序列,如短序列、组装的重叠序列和有误差的长序列。

本文对宏基因组分箱工具的各个方面进行了描述,包括优化、可视化和评估。近期,分箱工具加入了新特征,如图形结构(assembly graph和read overlap graph),以捕捉准确的序列邻域信息。这些特征的综合运用推动了从环境样本中还原微生物基因组的进展

背景知识

宏基因组分箱是一种在宏基因组分析流程中用于处理复杂数据的方法。宏基因组数据通常通过二代测序技术(如Illumina和MGI)或第三代测序技术(如Pacific Biosciences和Oxford Nanopore Technologies)获得,前者产生50到300个碱基对的短序列,后者产生10 kbp到超过1 Mbp的长序列。

这些数据由于包含噪声和冗余,使得组装原始基因组具有计算复杂性。专用于宏基因组的组装工具通常利用经验法则简化策略来解决复杂问题,不追求最优但可在合理时间内获得可行解的策略。

只是由于宏基因组复杂的组成,它们不总是能生成完整的基因组。因此,宏基因组分箱及精化方法被用于恢复称为宏基因组组装基因组(MAGs)的草图基因组。大多数分箱方法利用与分类学无关的无监督技术,将序列分配至代表不同分类群(如物种、属或更高阶层)的虚拟箱中。这些方法推动了微生物生态学的发展,通过病原体识别肠道微生物群分析改善了人类健康,并促进了生物技术的发展。

宏基因组分箱的各个方面

doi: 10.1093/bib/bbae372.

该图展示了从获得宏基因组序列到组装,最终获得宏基因组箱体的过程。

分箱方法

doi: 10.1093/bib/bbae372.

在宏基因组分箱中使用的特征。主要特征包括(A)核苷酸组成(B)丰度(C)序列图结构;以及(D)其他特征,如特殊基因和约束信息

1

使用核苷酸特征的分箱方法

寡核苷酸在基因组序列中的频率(称为k-mers)携带特定于分类的信号。基于核苷酸组成的方法建立在每个分类群具有独特核苷酸组成的假设之上,通过比较核苷酸含量(如鸟嘌呤-胞嘧啶(GC)含量和寡核苷酸的标准化频率),可以将序列分配到不同的分类箱中

使用组成特征的宏基因组分箱工具的比较

doi: 10.1093/bib/bbae372.

2

使用丰度特征的分箱方法

基于核苷酸组成的方法在处理具有高基因组相似性低丰度物种的序列分箱时遇到困难。然而,基因组的每个组成部分在样本中的比例应一致。

因此,通过估计序列(contigs或reads)的丰度,可以识别来自同一染色体的序列,因为它们在每个样本中的丰度应相同。这些序列也应属于同一生物,因为它们在每个样本中的比例应一致。

为克服基于组成方法的挑战,引入了基于丰度的分箱方法。这些方法在处理具有相似组成特征的密切相关生物(例如同种的不同菌株)的序列时显示出改进的效果

基于丰度的分箱方法可以细分为处理单个样本的方法(如AbundanceBin和MBBC工具)和处理多个样本的方法(如Canopy工具)。使用单个样本的方法假设测序遵循Lander-Waterman模型,即一个碱基被测序的次数符合泊松分布。使用多个样本的方法则假设序列的丰度特征会随不同样本中底层生物体丰度的变化或差异丰度而变化

使用丰度特征的宏基因组分箱工具的比较

doi: 10.1093/bib/bbae372.

3

结合核苷酸和丰度特征的分箱方法

基于组成和丰度的方法(或混合方法)利用了寡核苷酸频率的变化和覆盖信息。一旦为每个序列计算了核苷酸组成和丰度特征,可以将它们组合(例如为每个序列形成一个连接的特征向量)进行聚类,或者分层使用(例如先用组成特征聚类再用丰度特征)。这些方法通常优于单纯的组成或丰度方法。因此,混合分箱工具已成为当前宏基因组数据集分箱的首选

混合宏基因组分箱工具的比较

doi: 10.1093/bib/bbae372.

4

使用序列的图形结构作为特征的分箱方法

直到2010年代后期,宏基因组分箱方法主要依赖于核苷酸组成丰度特征来进行序列分箱。在大多数分箱工具中,序列被表示为特征向量,分箱基于距离或概率计算。此类工具通常将序列视为独立的数据点,而没有考虑到一些序列可能来源于连续的基因组区域

图是一种数据结构,由一组顶点或节点及其间的连接(称为边)组成。在一些图中,边可以有权重,表示连接的强度。图可以表示节点间的复杂关系邻域信息,而这可能无法在欧几里得或概率空间中体现。因此,宏基因组分箱已转向使用图结构来表示分箱中的序列

使用特殊图形结构的宏基因组分箱工具的比较

doi: 10.1093/bib/bbae372.

5

使用其它特征的分箱方法

除了上述主要的分箱类别外,一些工具还使用其他特征进行宏基因组分箱,以改进分箱结果。BMC3C工具在组成和覆盖信息之外利用密码子使用信息。COCACOLA工具考虑了来自成对末端读取的链路信息来优化分箱过程,虽然这些信息在一些组装图中也有体现。mBin和nanodisco工具使用细菌DNA甲基化特征来精确地将可移动遗传元件映射到其对应的宿主细菌分箱。

单拷贝标记基因是另一种常用的辅助分箱特征。单拷贝标记基因是存在于大多数细菌基因组中的特殊基因,每个基因组中仅出现一次。因此,一些分箱工具利用单拷贝标记基因来估计分箱数量并优化分箱结果。BV-BRC宏基因组分箱算法、MaxBin、MaxBin 2.0、MetaCoAG和SingleM等工具使用单拷贝标记基因来估计分箱过程中初始化的分箱数量。GroopM和MyCC等工具则利用单拷贝标记基因来优化最终的分箱结果。

两个常用的约束条件,must-link和cannot-link,经常用于判断一对contigs是否应被放置在同一分箱或不同分箱中。一些工具使用分类注释来确定这些约束条件。例如,SolidBin工具通过将contigs比对到参考基因组,如果contigs比对到同一物种则生成must-link约束,如果比对到不同属则生成cannot-link约束。分类注释可以通过如NCBI或GTDB等公共数据库获取。

由于病毒不编码单拷贝标记基因,专门为病毒设计的分箱工具结合了病毒特定的信息用于分箱。VRhyme工具使用蛋白质冗余评分,CoCoNet工具基于NCBI RefSeq病毒数据库进行训练,PHAMB工具使用病毒同源组,ViralCC工具则利用病毒-宿主邻近结构。利用这些病毒特定信息,使病毒分箱工具能够从宏基因组数据中恢复病毒宏基因组组装基因组(vMAGs)。

6

集成多种方法的分箱工具

集成分箱工具结合了多种宏基因组分箱方法的结果,以优化和提高基因组分箱结果的准确性。例如,DAS Tool、MetaWRAP、MetaBinner和BASALT等工具。这些工具使用不同的指标和额外信息,如单拷贝标记基因,从多个分箱结果中确定一组非冗余的分箱

doi: 10.1093/bib/bbae372.

分箱完成后的优化、可视化和评估

1

优化分箱的工具

分箱优化工具尝试提高所得基因组分箱的质量和准确性。早期的分箱优化工具通过利用分箱内的序列相似性进行优化,而近期的工具则使用组装图的连通性信息进行优化,如GraphBin、GraphBin2、METAMVGL和UGMAGrefiner等。

分箱优化工具的结果可能依赖于初始分箱结果的质量。在某些情况下,初始分箱结果中的错误可能会被传播,导致更差的结果。此外,这些工具大多只在分箱之间调整contigs,而不调整分箱的数量

宏基因组箱细化工具的比较

doi: 10.1093/bib/bbae372.

2

可视化分箱的工具

分箱序列由于使用复杂的算法和模型,常常难以理解。分箱可视化工具可以帮助生物学家了解序列如何被分组,并识别潜在的不正确结果。例如,分箱可视化可以展示相似序列如何被聚类,检测可能表示错误分箱序列的异常情况,以及确定覆盖模式不规则的序列

大多数可视化工具使用覆盖度和GC含量来可视化分箱,通过散点图、热图和等高线图等不同类型的图生成覆盖度与GC含量的序列图。

宏基因组箱可视化工具的比较

doi: 10.1093/bib/bbae372.

3

评估分箱的工具

随着宏基因组分箱工具和充足计算能力的普及,从各种环境样本中快速生成微生物基因组草图变得可能。为了从不断增加的微生物基因组草图中得出关于环境动态的可靠结论,确定基因组的质量变得至关重要。

此外,评估宏基因组分箱结果的准确性并确保其按预期运行也变得至关重要。在多方努力下,形成了文件如宏基因组解释的关键评估(CAMI),提供了金标准真实数据集以促进这些方法的标准基准。提出了多种指标来评估宏基因组分箱结果,包括精确度、召回率、F1-score、纯度、完整性污染情况

下表总结了一些用于评估宏基因组分箱结果并计算这些质量指标的自动化工具。CheckM和BUSCO是宏基因组研究中广泛使用的两种分箱评估工具,可用于确定实际宏基因组数据的MAGs质量以及模拟或模拟数据集的分箱结果

doi: 10.1093/bib/bbae372.

新的趋势

自2021年以来,新开发的许多宏基因组分箱工具都显示出使用深度学习技术的趋势。其主要思想是学习序列特征的低维表示(low-dimensional representation)或嵌入(embedding),获取这些嵌入的聚类以生成分箱。

例如,VAMB是最早在宏基因组分箱中使用深度学习技术的工具之一。随后出现了许多基于深度学习的分箱工具,包括使用变分自编码器(variational autoencoders,简称VAE)的CLMB和LRBinner工具,使用孪生神经网络(Siamese neural networks)的SemiBin和SemiBin2工具,使用前馈神经网络(feed-forward neural networks)的COMEBin工具,以及使用图神经网络的RepBin和UnitigBIN工具。深度学习技术的应用使宏基因组分箱工具能够准确高效地处理大规模复杂数据集的分箱

doi: 10.1093/bib/bbae372.

图中展示了典型的基于深度学习的宏基因组分箱流程包括:首先,从宏基因组序列中提取特征(包括核苷酸组成、丰度、图结构等)。接着,利用深度学习模型学习序列特征的低维表示或嵌入。最后,将序列的嵌入聚类以获得分箱

基于机器/深度学习的宏基因组分箱工具能够有效利用通用图形处理单元(GPGPUs/GPUs)的高效增强的数值计算能力,非常适合对具有数百万序列的大规模宏基因组数据集进行分箱

然而,目前大多数工具需要将整个数据集加载到内存中进行特征向量计算,这在计算内存不足时可能会成为挑战。对于非常大的数据集和特定使用场景,批处理技术在机器/深度学习应用中有利于数据的处理

问题与挑战

基于核苷酸特征丰度的分箱方法,由于微生物基因组的核苷酸组成可能因基因组大小氧气需求氮含量等因素而异,此外,重复区、低复杂度区、聚合区段、文库制备步骤和测序偏差可能导致基因组序列具有不均匀的测序覆盖,因此,即使来自同一基因组的序列之间,其核苷酸组成和丰度特征可能存在高度差异。这种与基因组平均核苷酸组成或平均丰度不匹配的基因组序列通常会被错误分箱

在组装过程中,非常相似的读段被合并为单个重叠群,随后在重新进行读段映射以估计覆盖率时,这些重叠群相比于其对应的基因组表现为过度代表。高保守区域,包括rRNA基因重复和编码转移RNA(tRNA)的基因,由于其高度相似性和重复性,常常被错误分箱,且许多分箱不包含任何编码rRNA的区域。类似的,重复序列如可转座元件(包括转座子和插入序列)和噬菌体也很少被正确分箱。

为准确地将这些序列重新添加到其适当的基因组中,可能需要在分箱结束时进行额外步骤,例如标记基因分析。使用Rfam或SILVA等数据库的标记基因分析可以帮助识别并可能纠正分箱中rRNA和tRNA基因的位置。

此外,分析物种的菌株水平变异在计算上具有挑战性,由于菌株间的高度相似性和组装质量较差,大多数分箱方法无法在菌株级别上生成MAG。这些方法常将相似菌株的重叠群归在一起,导致产生高度污染的分箱。

大多数宏基因组分箱工具仅关注细菌和古细菌,特别是依赖于这些生物单拷贝标记基因的工具。这些工具可能错误分箱或丢弃病毒序列,因为病毒缺乏普遍的标记基因

此外,尽管基于单拷贝标记基因的方法可以适用于真菌和原生生物,但它们在宏基因组研究中仍未得到充分表征。鉴定真菌基因组也具有挑战性

寄 语

有问题相当于还有进步优化的空间,有挑战相当于还有突破的机会。希望这篇文章能够帮助读者们用更新的眼光审视宏基因组的发展

参考文献

Mallawaarachchi V, Wickramarachchi A, Xue H, Papudeshi B, Grigson SR, Bouras G, Prahl RE, Kaphle A, Verich A, Talamantes-Becerra B, Dinsdale EA, Edwards RA. Solving genomic puzzles: computational methods for metagenomic binning. Brief Bioinform. 2024 Jul 25;25(5):bbae372.

相关内容

热门资讯

原创 中... 在当今世界航天领域,中国与美国的竞争与合作一直是全球关注的焦点。近年来,随着中国航天技术的飞速发展,...
荣耀亮出“底牌”,20GB+6... 有钱人的数量并不多,绝大多数人都只是普通人,在选购商品的时候会侧重于物美价廉,这一点也体现在了手机行...
@包头各经营主体,快来领“身份... 包头市市场监管局全面推行“企业码” 助力“一企一照一码”应用的公告 各经营主体: “企业码”是通过电...
全球首个!百亿参数级,正式发布 记者22日从中国科学院空天信息创新研究院(以下简称空天院)获悉,全球首个百亿参数级遥感解译基础模型“...
上海杀出个超级独角兽:融资超3... 铅笔道作者| 欣欣 最近,上海杀出一个超级独角兽:七牛智能(七牛云),第三次递表,向港交所冲刺IPO...
出游必备科技好物推荐 三星Ga... 再过不久,令人翘首期盼的十一长假就要到来,相信不少人的假日出行计划也在紧锣密鼓的筹备中。当然,不论是...
华为云空间全新升级,满足用户数... 在数字时代,数据是每个人的宝贵资产,无论是职场中的文件、旅途中的照片、生活中的记录、学习中的资料,都...
中科大院士痛斥华为:三大错误竟... 【ITBEAR】9月23日消息,近日,中科院院士孙凝晖在演讲中对华为的发展策略提出了批评,认为其在人...
坤哥爆料:30周年纪念PS5轻... 为了纪念PlayStation30周年,索尼在上周公布了一系列30周年纪念硬件,包括:PS5 Pro...
狂飙一年,阿里成为“AI全面手... 自2023年提出“AI驱动”战略以来,阿里巴巴通过大力投资AI基建,以及在B端和C端用户侧快速推进A...
北京,冲刺人形机器人第一城 智东西 作者 | 程茜 编辑 | 心缘 今年,人形机器人仿佛被按下了加速器!27款人形机器人扎堆亮相...
大模型专题:大规模智算集群的管... 今天分享的是:大模型专题:大规模智算集群的管理与性能调优实践 报告共计:24页 《大规模智算集群的管...
6G关键期窗口期来了!全球首个... 近日,6G领域传来重磅好消息! 在澳大利亚墨尔本举办的全球通信国际标准组织3GPP(第三代合作伙伴计...
阿里再掀价格战,AI大模型急于... 21世纪经济报道记者孔海丽、实习生张宇欣 北京报道 9月19日,阿里官宣,阿里云三款通义千问主力模型...
【成功案例】CareMedi ... Silicon Labs(芯科科技)为CareMedi公司提供BG22小型化蓝牙SoC,帮助其开发新...
原创 两... 自从苹果iPhone16系列发布以来,就遭到了业内外的各种嘲讽。或许是因为“零创新”的缘故,苹果iP...
【开箱】中式水墨风配色,Red... 今天为大家带来 Redmi Note 14 Pro+ 星沙青配色的开箱。 本次的 Redmi No...
首都关心下一代大讲堂举办科学教... 为提高青少年科学素质,助力科技强国建设,在全国科普日活动期间,首都关心下一代大讲堂走进昌平区第一中学...
第十一届IPP国际会议在穗举行... 南都讯 记者孙小鹏 通讯员周浩锴 日前,以“人工智能与未来世界”为主题的华南理工大学公共政策研究院(...
互联网+智慧城市甄选给你便捷高... 在互联网的浪潮中,有这样一位领航者,他以深厚的行业积淀和敏锐的洞察力,为本地生活领域带来了一场前所未...