百小蓁课堂 | [文献解析]发现小开放阅读框架编码非典型MHC-I肽的新方法

编码蛋白质的DNA序列约占整个基因组的1.5%,然而多达75%的基因组可以转录,但可能是“非编码”的。近年来,人们发现许多非编码RNA具有产生多肽的编码潜力。成千上万的ncRNA,包括lncRNA、假基因以及mRNA中的未翻译区域(UTRs),都可能被翻译。计算机模拟预测、核糖体分析和质谱(MS)研究共同证明了由未注释的小开放阅读框(sORFs)编码的大量肽的存在,这些肽约有100+个密码子。sORF编码的小肽(SEPs)或非典型肽具有特定的亚细胞分布,与典型肽有相似的丰度,甚至具有同样的生物学功能。MHC-I是存在于细胞表面免疫识别的一类重要的免疫肽,大多数报道的MHC-I多肽来源于蛋白质编码序列,由于缺乏准确和灵敏的检测方法,从sORF翻译而来的非典型多肽在很大程度上是未知的。而越来越多的sORF研究揭示了从非典型SEPs中发现MHC-I多肽甚至强效癌症新抗原的巨大潜力。

近日,香港理工大学赵倩博士课题组在Journal of the American Society for Mass Spectrometry 杂志上报告了一种有效的方法——利用互补的生物信息学策略,提高识别非典型的MHC-I肽。在数据库搜索策略中,非典型免疫肽匹配通过三个互补的优化的工作流,并利用Ribo-seq数据构建预测sORF数据库。在另一种全新的从头测序策略中,MS数据搜索结果经过sORF数据库过滤,以确定新发现的非典型免疫肽。文章报道从两种肿瘤细胞系中鉴定了308个非典型免疫肽,其中一些免疫肽通过平行反应验证监控实验得到了有力的验证。文章表明该方法是一个用核糖核酸测序和MS数据结合来解决鉴定非典型MHC多肽的简便方案。同时,用这种方法鉴定的新型非典型免疫肽可以为基础免疫学和癌症免疫治疗提供新的思路。

这项研究是第一个使用从头测序鉴定sORF编码的多肽的研究。由于目前缺乏通用的sORF数据库,作者利用Ribo- seq数据和互补的生物信息学方法有效地构建了自定义sORF数据库,并在从头测序策略中,针对自定义sORF数据库对从头测序结果进行筛选,提高了发现非典型肽的置信度。本文共鉴定了308个由sORFs翻译的非典型免疫肽,其中许多肽之前被推测为非编码区域,如5’-UTR或lncRNA。另有研究显示sORF的总数可能是已知ORF的几倍,到目前为止鉴定的非典型免疫肽可能只是冰山一角,作者也发现在这两种细胞系中,非典型肽与典型肽不成比例,在HCT116细胞中鉴定出更多的典型免疫肽,而在Jurkat细胞中鉴定出更多的非典型免疫肽。这可能是:(1)这两个细胞具有不同的HLA异型体,可能不同的HLA异型体对非典型免疫肽有一定的偏好;(2) 有HLA单倍型丢失Jurkat细胞。非典型肽鉴定的de novo新方法正在出现,这将扩大传统的数据库和肽列表。随着不断研究,HLA等位基因对非典型免疫肽的选择性的研究将不断深入。
百蓁生物基于de novo算法以及先进的DeepImmu平台推出肿瘤新抗原筛鉴定服务,致力探索开放阅读框架外、小开放阅读区等非编码区产生的新生抗原,弥补了传统的因无完整数据库而无法发现新生抗原的不足。

研究结果与讨论(摘要)

选用了一种突变负荷高(TMB-H)和微卫星不稳定性高(MSI-H)的大肠癌细胞系HCT116作为参考,对Jurkat细胞进行了研究。采用MHC抗体共免疫沉淀富集免疫肽,串联质谱分析。将MS数据进行UniProt人蛋白数据库搜索检测典型免疫肽(Canonical immunopeptides)。其次,在PEAKS Studio软件平台上结合数据库搜索和从头测序两种互补策略识别非典型免疫肽(nonanonical immunopeptides)。参考数据库是sORF编码的多肽(SEPs)识别的关键,此文作者是基于Ribo-seq结果,采用不同的算法构建参考数据库来预测sORF。同时,采用从头肽测序鉴定新发现的非典型免疫肽,所有检测的多肽在构建的sORF数据库中进一步筛选,只有那些最确定的非典型免疫肽被保留。综合这些方法识别了308个非典型免疫肽,7902个典型免疫肽和3个突变免疫肽,这些肽中大多数预测为MHC结合物(Fig.1)。

本文利用De Novo多肽测序和自构建的sORF数据库鉴定了很多新发现的非典型MHC-I多肽。到目前为止,还没有一个通用的非典型肽的sORF数据库,因此许多非典型肽无法仅通过数据库搜索策略进行识别。作为一种替代方法,作者对MS数据进行从头测序,分别从HCT116和Jurkat细胞鉴定出15,993和9,794肽段(score>80)。进一步在自构建的sORF数据库进行筛选,识别出非典型免疫肽。只有sORF数据库中完全相同且与已知的蛋白数据库(UniProtKB/Swis- sProt)相似度小于80%的序列被保留。由于sORF的数据库较小和保守性较低,共鉴定出20和28个非典型肽。为了比较,作者还将整个肽列表与UniProtKB/SwissProt蛋白数据库进行了比对,以找到典型的免疫肽。从HCT116和Jurkat细胞中分别鉴定出2807和1819个典型多肽,并计算预测所有鉴定的多肽与MHC分子的亲和力。作者观察到:1)无论免疫肽的类型如何,从头测序评分的分数线越高,筛选的肽段结合的百分比越高;2)序列与UniProtKB/SwissProt或sORF 数据库匹配的序列比那些通过从头测序专门鉴定的序列具有更高的结合百分比;3)在当我们设定严格的临界值(de novo评分≥95)时,通过从头测序鉴定的非典型肽90%是理论MHC结合物(Fig.4a和b)。

用从头测序法鉴定的免疫肽与通过传统数据库搜索策略鉴定的免疫肽进行比较。令人惊讶的是,它们在很大程度上是互补的,只有一小部分是相同的。当采用更严格的截止值时,两种方法鉴定的典型免疫肽数量由702个减少到121个。接下来比较了典型免疫肽和非典型免疫肽的鉴定可信度、疏水性和长度分布(Fig.4d−f)。与数据库搜索策略中的MaxQuant评分相比,在从头测序中非典型肽的评分普遍高于典型肽。在从头测序中使用更严格的参数来排除错误检测,确保了非典型肽的可靠发现,上述结果表明,从头测序在非典型肽鉴定方面有很大的潜力。

对于非典型免疫肽的验证,作者选择了8个通常被PRICE、sORF和RiboTISH鉴定的肽段进行广泛验证。首先,将8个肽序列中的6个序列与合成的典型肽序列进行光谱比对(Fig. 5a)。以相同的保留时间和m/z作为合成肽的标准,采用数据依赖模式(DDA)的质谱法进行检测。并对这些多肽的MS/MS谱人工解析碎片离子。接下来进一步利用平行反应监测(PRM)验证 (Fig. 5b)。正如我们所预料的那样,新鉴定的非典型免疫肽与合成肽有相同的前体离子和碎裂。根据netMHCpan 4.0计算,选出的8个非典型免疫肽中,有7个是强MHC-I结合物。研究了来自HCT116细胞的新型非典型免疫肽ETDIEMETRY在活细胞中与MHC-I分子的亲和力。利用T2 A*02:01等位细胞(缺乏内源性抗原提呈途径)研究了多肽与MHC分子之间的相互作用,多肽与T2细胞共孵育,随后染色流式细胞术分析MHC-I抗体。多肽ETDIEMETRY产生了相当大的荧光信号变化,表明它是MHC-I分子的强粘结剂(Fig. 5c)。

(1)小开放阅读框,Small open reading frames (smORFs/sORFs)一般指 ≤ 100 codons的一类开放阅读框,常常在蛋白组注释过程中被忽略。sORFs在许多生物,包括人类基因组中大量存在,并且成百上千个已被发现能够翻译小肽 ≤ 100 amino acids(SEPs),行使重要生物学功能。但是,大量sORFs的遗传学功能和进化学方面的作用仍存在着许多的未知。

(2)5′ UTR,3′ UTR 叫作非编码区(untranslated region)。一段基因序列上包含外显子和内含子,转录的时候,前体RAN(pre-RNA)上会有内含子和外显子,成为成熟RNA时,内含子已经被剪切了,只保留外显子,所以内含子叫作非编码RNA(non-coding RNA)。但成熟的RNA上也是有一部分序列并不翻译成蛋白质,就是非翻译区域(untranslated region),包括上游的 5′ UTR,下游的3′ UTR。

资源下载: