文献分享 | 基于k-mer特征预测耐药性

述评
细菌的药物敏感性特征是指导临床抗感染治疗时药物选择的重要依据。目前，主要应用数据仍然依赖传统的体外药物敏感性实验结果。然而，传统方法固有的缺陷，例如：时效性差、体内外差异等，显著影响了实验数据的作用发挥。

测序技术除能够解析病原的基因特征、生物学机制外，派生出了许多技术路线用于分析（或推测）目标病原的各类生物学特征，例如药物敏感性、毒力特征等等。而基于细菌基因型推测其表型（Genotype-to-Phenotype）的技术探索无疑是微生物检验最为关注和期待的路径方向。

生物信息学的发展和应用，使得基于细菌基因型推测其药物敏感性表型的探索早已不再局限于耐药基因到耐药表型这种老掉牙的技术路线。包括机器学习、基于神经网络的基因型-表型预测等深度学习已广泛而深入地用于相关领域的探索。随着技术方法的不断改进和实践应用的不断积累，瓶颈的跨越和应用的突破值得期待。必要的知识和技术储备，是未来跟随发展趋势和技术前沿必不可少的。为此，我们将系统分享相关领域的技术发展和应用进展，期待与您共同成长和进步。

简介
此论文为梅里埃生信团队去年发表。由此可见主流技术供应商的技术储备和关注热点方向。

近年来，发展起许多基于k-mer旨在根据细菌的全基因组序列预测细菌的表型特征的技术分析方法。虽然在预测性能方面通常是令人信服的，但底层运行模型通常难以直接解释，表现在：实际的遗传因子与通过k-mer的表现形式之间的相互对应关系通常难以破译。换言之，通过k-mer实现了很好的预测性能，但发挥作用的k-mer预测难以定位到与预测表型对应的基因型。

我们开发了一种简单且计算效率高的策略，能够应对基于k-mer分析固有的高相关性，进而获得简洁且易于解释的特征。这种方法通过对遗传因子的加权线性组合，可以很容易地识别真正的耐药决定因子，进而使用肺炎克雷伯菌的基因组数据预测其抗菌药物耐药谱，并表现出目前为止最为优秀的预测性能。通过增强基于基因组k-mer的抗菌药物耐药性预测模型的解读能力，我们的方法提高了它们的临床效能，因此将有助于临床医生和微生物学家在常规诊断中采用它们。虽然耐药性是探索和开发此类应用工具的源动力，但该方法是通用的，可以转用于分析任何其他细菌性状。相关方法的 R 包可在以下地址获得：https://gitlab.com/biomerieux-data-science/clustlasso。

正文
下一代测序是一种颠覆性技术，未来它有可能作为一个以单一测试方式替代甚至取代当前多重测试方式的实验室诊断检测，且速度更快、经济可负担。以细菌基因组推测其抗菌药物耐药性目前尚有一定技术挑战。然而，在对一些菌种的尝试已经获得了良好的结果，包括肺炎克雷伯菌的。有文章对此类基于高通量测序的药物敏感性检测所面临的各种挑战进行了综合分析，并对该领域的当前技术水平进行了全面回顾（J Clin Microbiol 2019;57(3),doi:10.1128/JCM.01405-18.）。

早期的方法依赖于检测已知的抗性标记（耐药基因）来预测耐药性，这种策略有时被称为“直接关联分析”。虽然当耐药性的遗传基础明确时这是有效的，例如结核分枝杆菌和伤寒沙门氏菌的耐药机制，但这种方法受到一些限制的阻碍。首先，它本质上依赖于对明确的耐药机制的掌握，可能不适用于所有菌种和药物。其次，无法解释这些耐药机制可能具有不同水平的预测能力。不同耐药机制间的联合效应也很难被预测出来。此外，由于存在许多未知的耐药机制，未检测到耐药因子而预测表型敏感会存在较大的不确定性。

目前，许多专业指导下的机器学习（Machine Learning，ML）模式被用于耐药性预测：采用常规方法测定特定菌种群体相当数量菌株的药敏表型，再掌握这些菌株中敏感和耐药个体的基因组特征（预测规则），最后通过分析未知耐药表型的待测菌株的预测规则（基因组特征），进而预测其药敏表型。
虽然 ML 方法也受到信息完整性限制的阻碍，因为一组基因组可能不能代表整个物种的基因组多样性，但它们有能力在没有或有限的先验知识的情况下识别新的标记或标记组合，并且使之变得越来越丰富。即使对于抗生素耐药性知识可能是最全面和最完整的结核分枝杆菌，最近的研究表明，ML模型仍然可以显着提高直接关联策略的性能。

作者建议依靠自适应集群套索（Adaptive Cluster Lasso，ACL），通过预先筛选变量来适应高维设置。在 R 包中实施了一个简单有效的 ACL 启发策略，能够处理基于k-mer的表示的非常高维和强的相关性，导致稀疏和可解释的基因组特征。在针对肺炎克雷伯菌的系统验证研究中，这种方法优于标准套索。它提供了相当水平的性能，同时提供了模型中涉及的基因组决定因素的更好的可解释性。我们可以从相应的k-mer特征中识别已知的和潜在的新型耐药因子，这使得发现有意义的机制特征成为可能。

本研究所采用的分析策略，主要有以下三个步骤：

第一步（筛查步骤：使用稀疏 ML 算法以通用方式筛选特征）：将所有的位点进行筛选，选出具有特征的位点。

第二步（集群步骤：将其扩展到强相关特征的集群）：将具有相关性的位点进行聚类，以此来降低计算的维度。

第三步（学习步骤：最终被视为要包含在最终抗生素中的候选特征预测模型）：将每个已识别的集群总结为一个新的复合变量，定义为定义集群的原始变量的平均值，并在集群级别执行标准套索。因为在我们的案例中，原始变量编码基因组中给定DBGWAS模式的存在/不存在，这些复合变量对应于基因组中存在/不存在的集群中涉及的模式比例。

讨论

使用k-mers展示细菌基因组具有强大的相关结构，且涵盖更高维度。虽然基于k-mer的预测模型具有不稳定性，但是对预测结果不构成太大影响。我们提出了一种简单且计算高效的策略，以应对基于k-mer的表示所固有的高度相关结构，并构建稀疏和有意义的基因组特征。在对数千株肺炎克雷伯菌株进行系统研究的同时，我们的方法与其他先进的方法相比是有优势的，提供了模型中涉及的基因组特征的更大解释性，且可以从中挖掘更多有价值的位点。

在本研究中，筛选和最终学习阶段都基于套索惩罚的逻辑回归模型，它已被证明与ML算法具有竞争力。因为它结合了全球概率模型中的几个基因组决定因素和调节其各自影响的权重，从而反映了它们可能与不同抗药性水平相关联的事实。最后，R包glmnet提供了一个非常有效的执行场景，扩展到像本研究中涉及的大型数据集。

我们的方法是一种简单有效的策略，在非常高维度的环境中近似这种群套索过程。然而，我们方法的自然延伸不是将相关特征组分解为复合变量，而是依赖于集群级别定义的组套索惩罚回归。然后，每个特征都将获得自己的权重，这可以更好地反映其个人的预测能力。我们实证地观察到，集群内的权重变化很小，因此表明，保持特征分离或平均特征本质上是等价的。在实践中，我们发现更容易显式地将每个集群折叠到单个复合变量中来解释模型参数。换言之，数据处理过程的核心思想是“降维”，将具有相似特征的位点聚类，以此来降低数据复杂度。

关于AMR预测，我们对肺炎克雷伯菌的研究证实了最近所做的几项观察，即基于k-mer的方法可以在没有任何事先信息的情况下学习稀疏的预测规则，预测性能水平可能会因不同药物而异。本研究中涉及的634个具有基因组和表型特征的附加菌株将有助于学习更准确和更普遍的预测模型。

本研究的局限性有两个：一个是模型会受到训练集的影响；另一个是AST的训练集和测试集之间的方法差异会带来噪音。

资源下载：
下载地址： http://yemao.in/life?utm_source=sishubiji&utm_term=文献分享 | 基于k-mer特征预测耐药性