Nature Methods | IRIS:针对空间转录组学,进行高效且精确的整合参考信息的空间区域

近日,来自于布朗大学的Ying Ma以及密西根大学的Xiang Zhou在Nature Methods上发表了一篇题为“Accurate and efficient integrative reference-informed spatial domain detection for spatial transcriptomics”的研究文章。该文章介绍了一种名为IRIS的计算方法,旨在通过准确和高效地检测空间域来表征空间转录组学(Spatially resolved transcriptomics,SRT)研究中的组织结构域。IRIS独特地利用单细胞RNA测序数据,以生物学上可解释的方式检测空间域,并整合多个SRT切片,同时显式考虑切片内和切片间的相关性。

作者通过对六个SRT数据集的深入分析展示了IRIS的优势,这些数据集涵盖了多种技术、组织、物种和分辨率。在这些应用中,IRIS在中等规模的数据集上实现了显著的准确性提升(39-1083%)和速度改进(4.6-666.0倍),同时也是唯一适用于包括Stereo-seq和10x Xenium在内的大型数据集的方法。结果显示,IRIS能够揭示复杂的脑结构,发现肿瘤微环境的异质性,并检测糖尿病影响的睾丸中的结构变化,所有这些都具有卓越的速度和准确性。

空间转录组学(SRT)技术是一种前沿的研究手段,能够在组织中进行精细的基因表达分析。这些技术包括各种基于成像和测序的方法,极大地推动了对复杂组织转录组和细胞景观的研究。SRT的一个关键任务是检测和表征组织中的空间域,这对于理解组织的功能组织和疾病相关的结构变化非常重要。

当前的计算方法,如spaGCN、BayesSpace、BASS等,主要依赖于转录组异质性来进行空间域检测。然而,这种方法的局限性在于它依赖于次要特征,可能导致生物学上无关的结构检测结果,并降低了空间域检测的准确性和可解释性。本研究方法IRIS通过结合单细胞RNA测序数据,显著提高了空间域检测的准确性和效率,为SRT研究提供了更强大的工具。

方法概述

IRIS方法旨在将单细胞RNA测序(scRNA-seq)数据与空间转录组学(SRT)数据相结合,以推断组织切片中的空间域(ct),从而实现对组织中细胞类型的精确定位和分析。推断过程包括以下几个关键步骤:

1. 构建低维成分矩阵Pt ,使得SRT数据与参考基因表达矩阵之间的差异最小化。

2. 引入空间相关性约束,保证相邻位置的细胞类型组成相似。

3. 确保空间域的一致性,使得不同切片上的空间域具有相同的细胞类型组成。

4. 综合优化目标。最终的综合优化目标结合了上述三个方面的损失函数。

IRIS方法通过综合利用scRNA-seq数据和SRT数据,采用优化算法推断组织切片中的空间域。通过最小化SRT数据矩阵与参考基因表达矩阵的差异,保证空间相关性和空间域一致性,从而实现对细胞类型和空间位置的精确分析。通过这些步骤,IRIS方法能够在高分辨率组织切片上进行细胞类型和空间域的精确分析,揭示组织微环境的复杂性。

1. 人类背外侧前额叶皮层(DLPFC)10x Visium数据上的应用

作者使用IRIS方法对多种空间域检测方法进行了基准测试,具体分析了人类背外侧前额叶皮层(DLPFC)的数据。DLPFC数据由10x Visium提供,包含来自三位供体的12个切片,这些切片被注释为七个空间域,包括六层皮层和白质(图2a)。scRNA-seq参考数据通过10x Chromium技术从死后脑组织中获取,包含44种细胞类型。单细胞数据来源于外部研究,样本中的细胞类型和状态可能与SRT中的不同。

作者首先研究了一个较为简单的情形,即组织切片来自同一供体,并且这些切片具有相似的组织结构。IRIS方法能够准确检测出前额叶皮层的层状结构(图2a),其准确度(ARI中值为0.71)比其他方法高出39-1083%。在更具挑战性的情形中,如缺失或分类错误的细胞类型以及不同供体的组织切片中,IRIS方法仍然表现出色,保持了较高的准确性。此外,IRIS方法在各种测序下采样场景中也表现出稳定的性能。

通过对层特异性标志基因和差异表达基因的分析,IRIS方法不仅识别出了已知的标志基因,还发现了新的标志基因,这些基因在突触信号传导等大脑功能途径中富集(图2e)。进一步的细胞类型组成分析揭示了不同空间域内的细胞类型共定位情况,验证了IRIS方法的有效性。

2. 鳞状细胞癌 (SCC) 数据上的应用

作者使用IRIS方法对人类鳞状细胞癌(SCC)数据进行了基准测试,评估其在空间域检测中的表现。SCC数据来自空间转录组学(ST)技术,包括四位患者的12个切片,主要分析了患者2的三个组织切片。这些数据重点关注通过肿瘤前缘区域的注释进行评估。参考数据为同一研究中的单细胞RNA测序(scRNA-seq)数据,包含24种细胞类型。

由于SCC数据不包含详细的域注释,作者使用肿瘤前缘区域的注释作为评估标准。IRIS方法能够清晰地分离肿瘤和非肿瘤区域(Nagelkerke R2=0.72),其表现优于其他方法(Nagelkerke R2=0.4-0.71)(图3a, 3b, 3c)。此外,IRIS能够识别肿瘤核心区域(如域3和6)并区分肿瘤前缘区域(如域8),而其他方法未能做到这一点(图3d)。

在非肿瘤区域,IRIS一致地检测到多个表明肿瘤微环境(TME)的域,包括邻近肿瘤和非邻近肿瘤的基质区域,而其他方法未能一致地捕捉这些区域(图3b,)。通过标志基因表达分析,IRIS将肿瘤区域细分为三个子区域(6、3和8),显示出不同的细胞和基因特征(图3e, 3f, 3g, 3h, 3i)。

3. 小鼠精子发生Slide-seq数据上的应用

作者接着使用IRIS方法对小鼠精子发生Slide-seq数据进行了分析。该数据集来自对睾丸的测序,包括三只糖尿病(ob/ob)小鼠和三只野生型(WT)小鼠的六个组织切片。参考数据为外部研究中通过Drop-seq技术测得的六只成年小鼠的scRNA-seq数据。主要分析了一只WT小鼠和一只ob/ob小鼠的切片,以研究糖尿病引起的结构变化。

IRIS方法准确描绘了小鼠精子发生过程中各阶段在曲细精管中的空间分布(图4a, 4b)。在WT小鼠中,IRIS识别出位于曲细精管中央的圆形精子细胞(RS)域(域0),周边的延长精子细胞(ES)域(域2),以及初级和次级精母细胞(SPC)域(域3和域4)和间隙中的精原细胞(SPG)域(域1)(图4b)。相比之下,其他方法如spaGCN、BayesSpace等未能准确捕捉已知的曲细精管结构(图4b)。

在糖尿病小鼠中,IRIS同样表现出色,准确识别出缩小的ES域,反映了糖尿病小鼠中曲细精管结构的破坏。已知精子发生相关基因的表达模式进一步验证了IRIS识别的空间域的准确性,例如,IRIS识别的ES域和RS域富集了对应的标志基因(图4d)。IRIS还揭示了糖尿病条件下睾丸微环境的关键变化,特别是在ES区域的结构和细胞组成方面(图4k)。

4. 小鼠嗅球Stereo-seq数据上的应用

作者随后使用IRIS方法对成年小鼠大脑的单细胞分辨率MERFISH数据和亚细胞分辨率Stereo-seq数据进行了分析。参考单细胞数据为10x Chromium测序的18个细胞亚群的scRNA-seq数据。分析数据包括Vizgen MERFISH技术收集的成年小鼠大脑数据和Stereo-seq技术收集的两片相邻的小鼠嗅球组织切片。由于计算负担过重,其他方法未能运行,仅应用了IRIS方法。

IRIS方法准确描绘了嗅球的层状结构,包括室管膜下层(SEL)、颗粒细胞层(GCL)、内丛状层(IPL)、僧帽细胞层(MCL)、外丛状层(EPL)、球状层(GL)、嗅神经层(ONL)和脑膜(图5a, 5b)。IRIS在各种下采样场景中表现出一致性,并优于无参考版本的IRIS。IRIS识别的层状结构得到了已知标志基因富集的支持,如脑膜中的Ptgds(域1)、ONL层中的S100a5(域2)、嗅鞘细胞富集的Mgst1(域3)和球状细胞中的Apold1(域6)(图5d, 5e)。

通过域特异性差异表达(DE)分析,IRIS识别出多个已知和新发现的DE基因。例如,ONL特异性基因Fabp7在嗅神经的鞘膜胶质细胞中大量表达,促进感觉神经元的再生。内/深EPL特异性DE基因Cck主要在深EPL的簇状细胞中表达。基因集富集分析(GSEA)显示这些DE基因在嗅觉受体活动、嗅觉感知和气味结合等途径中富集(图5f)。

IRIS推断的细胞类型组成进一步突出这些域内的独特特征,例如跨越相邻层的僧帽细胞亚型(域4, 10, 5和7)、GCL内不同亚层的颗粒细胞亚群(域8和9),以及域0内的未成熟细胞(图5g, 5h)。类似结果在其他重复实验中也有观察到。

5. 人类乳腺癌 (BC) 10x Xenium 数据上的应用

最后作者使用IRIS方法对10x Xenium生成的高分辨率空间转录组学(SRT)数据进行了分析,数据来自两个相邻的乳腺癌(BC)组织切片。参考数据为通过10x Chromium测序的29个细胞亚群的scRNA-seq数据。由于计算负担过重,其他方法无法运行,仅应用了IRIS方法。

IRIS方法清晰地识别出四个不同的肿瘤区域,包括两个导管原位癌(DCIS)区域(域10和16)和两个浸润性导管癌(IDC)区域(域5和8)(图6a)。此外,IRIS还检测到多个肿瘤微环境(TME)域,包括免疫相关区域(域0, 4和13)、肿瘤基质区域(域1)和肌上皮层(域14)。这些空间域通过已知标志基因的富集得到支持,如IDC域中富集的TCIM和FASN2,以及DCIS域中富集的CEACAM6(图6c, 6d)。

IRIS识别出多个已知和新发现的差异表达(DE)基因,基因集富集分析(GSEA)显示这些基因在肿瘤、免疫和基质域中富集,反映了BC微环境的复杂相互作用(图6e)。IRIS还分析了激素受体(ESR1和PGR)和人类表皮生长因子受体(ERBB2)在肿瘤区域的状态,表征其侵袭性和肿瘤内异质性。ERBB2在IDC域高度表达,支持其高级转移特性(图6g, 6h)。肿瘤侵袭标志基因(AGR3和CENPF)的表达进一步确认了域8比其他域更具侵袭性(图6i)。

研究总结

该研究介绍了一种新的计算方法IRIS,用于空间转录组学(SRT)研究中的准确且可扩展的空间域检测。IRIS在中等规模数据集上速度比现有方法快4.6到666倍,是唯一能扩展到大型数据集(如Stereo-seq)的方法。通过分析六个不同技术、组织和物种的SRT数据集,作者展示了IRIS的显著优势。

IRIS是首个集成参考scRNA-seq数据与SRT研究以检测空间域的方法,进一步证明了这种集成的优越性。未来,IRIS可以通过引入多种核矩阵、结合不同聚类算法、整合组织学图像数据以及执行其他SRT分析任务来扩展其功能。

资源下载: