2023年2月,复旦大学邹欣/郝洁团队在Briefings in Bioinformatics (IF=14) 以长文形式发表了题为:“scSTAR reveals hidden heterogeneity with a real-virtual cell pair structure across conditions in single-cell RNA sequencing data”的论文。团队首次提出了单个细胞动态转录组的概念,并通过多个生物学和临床场景系统性显示了动态特征的价值。研究团队已经使用scSTAR对一种新的肿瘤疫苗疗法ATHENA可能机制进行研究(Liu,et al. Frontiers in oncology, 2022)。
研究背景
细胞在不同生物过程中经历状态转换,深入研究不同条件下单个细胞的mRNA表达状态的变化对于理解:肿瘤组织和正常组织、治疗前后、原发肿瘤和复发等之间的生物学关系至关重要。细胞状态的变化常常以高度异质的方式进行。单细胞和空间转录组技术能够捕获这些过程产生的异质性,但它失去了谱系间关系。由于目前的单细胞和空间转录组测序实验流程中,细胞被破坏,因此每个细胞只能测量一次,无法跟踪每个细胞在不同样本或不同条件之间状态的转变。同时,与许多组学数据类似,这些测序数据通常包含许多与实验研究无关的干扰,例如批次效应、随机噪声和生物噪声等。现有的数据分析策略主要基于分析一群细胞(细胞亚群)的平均状态值,因此提取的状态变化仅限于亚群间的差异而非单个细胞的变化。这种分析方法假设了亚群内的细胞是同质的。而细胞亚群之间的平均状态差异可能导致单个细胞之间的生物学差异被忽略,尤其是当这种差异小于亚群间的变化。因此掩盖可能存在的亚群内的细胞的异质性,而这些异质性可能导致新的生物学过程或机制的发现。
研究思路
scSTAR通过用计算的方法构建同一个细胞在不同条件下的真实-虚拟细胞对,真实-虚拟细胞对之间的差别反应的是这个细胞在环境变化时的状态改变,而与这个细胞的静态状态无关。这是scSTAR与已有方法的本质区别。使用这种方法,scSTAR可以挖掘出淹没于噪声之下的细节信息。ScSTAR处理后的单细胞RNA-seq数据只包含动态特征,但是可以保持原原始数据的维度不变,因此绝大部分已有的单细胞数据分析方法都可以用于分析单细胞动态数据,如图1所示。
研究思路
1. 模拟数据显示scSTAR可以挖掘出已有方法无法发现的细胞异质性
我们首先比较了5种已有方法Combat, MAGIC, SAVER, MNN and scMerge,并通过3种聚类方法kmeans,SC3和Seurat来评估它们的结果。模拟数据模拟了2种条件下的细胞状态异质性,并伴有不同程度的噪声干扰。
2. scSTAR在生物学和临床研究中的应用
通过重新分析一组小鼠免疫老化数据,我们发现了原文使用传统静态方法无法发现的与老化相关的细胞构成特征(图3)。
单基因分析是scSTAR的一个特殊的应用场景(图4)。使用scSTAR比较表达/不表达特定基因的细胞类群,我们可以系统地描绘与该基因功能有关联的基因网络功能变化,进而推断出该基因在特定生物学或临床场景下的作用。
scSTAR有助于新的细胞亚型的发现。我们使用scSTAR,通过对比肝癌和肺癌的癌和癌旁组织单细胞数据,我们判定出了一群与肿瘤病人较短生存期显著相关的Treg细胞亚群,其特异性高表达HSPA5。这群细胞的特征在21个肿瘤的TCGA数据集中验证也显示了很高的促肿瘤特征。我们使用免疫荧光技术也验证了HSPA5+ Treg细胞与其他Treg细胞在肿瘤微环境中共存的现象(图5)。
基于动态特征构建的肿瘤免疫治疗预测模型比以往基于静态特征的模型具有更高的可靠性。基于scSTAR提取的动态特征进行细胞分群,然后使用不同细胞类群的构成比例作为黑色素瘤免疫治疗响应的预测因子,可以显著提高精确度(图6)。