⽂献精讲⼁单细胞测序结合⽣信分析,有哪些sao操作?
单细胞测序以单个细胞为单位通过全基因组或转录组扩增进⾏⾼通量测序,能够揭⽰单个细胞的基因结构和基因表达状态,反映细胞间的异质性。其在肿瘤、发育⽣物学、神经科学等领域有重要应⽤,是现今⽣命科学研究的焦点。
关于单细胞研究,我们已经做过许多讲解。在本期“明信社”专栏中,请来了⾦特达-⾼级⽣信部的⽩⽔⽼师通过精讲nature communications 上的⼀篇⽂献,来从⽣信分析的⾓度讲⼀讲单细胞测序在细胞亚群分类中的应⽤。(预告⼀下:明晚⼋点,单细胞系列视频课就要发布啦~)
⽂章信息
⽂章标题:Estimation of immune cell content in tumour tissue using single-cell RNA-seq data发表期刊:nature COMMUNICATIONS发表时间:2017-12-11影响因⼦:12.353
⽂章摘要
由于免疫系统和肿瘤细胞之间的相互作⽤受细胞-细胞相互作⽤的复杂⽹络的控制,了解实体肿瘤的特异性免疫细胞组成对于预测病⼈对免疫治疗的反应是必不可少的。
本⽂作者使⽤实体肿瘤来源和PBMC(外周⾎单核细胞)来源的single-cell RNA测序数据,通过数据处理获得相应的特定指标和特定类型的细胞亚型的基因表达谱(RGEPS)推导普通转录组数据中的细胞亚型和细胞⽐例。这种⽅式在数学上叫做反卷积。
同时也⽐较了两种组织来源获得的RGEPs的反卷积效果,证明了肿瘤来源的RGEPs是成功反卷积的关键,⽽外周⾎来源的RGEPs是不⾜以对普通转录组数据实现反卷积。
单细胞数据聚类分析区分了9种主要的细胞类型,包括T细胞、B细胞、巨噬细胞/单核细胞、⾃然杀伤细胞(NK)细胞,树突状细胞(DC)、成纤维细胞、内⽪细胞、卵巢癌细胞,⿊⾊素瘤细胞。其中T细胞包括三种细胞亚型:CD4+、CD8+和调节性T细胞(Treg),CD4+或CD8+ T细胞和免疫抑制treg细胞的⽐例被认为是免疫活性和⾮活性肿瘤的标志物。
利⽤肿瘤来源的RGEPs,可以估计与多种肿瘤相关的免疫细胞和基质细胞类型的含量,与治疗
相关的⽐例,以及改善恶性细胞的基因表达谱。
⽂章思路图
⽽后,作者使⽤了其中3例卵巢癌腹⽔样本的单细胞数据和普通转录组数据来进⾏反卷积验证,同时⽤荧光激活细胞分选(FACS)实验⽐较了腹⽔样品的预测细胞组成。如下图所⽰,反卷积估计出的细胞分类结果与已报道的结果⼀致。
⽂章结论
1. 数据选择与使⽤
1. 为了描绘出与肿瘤微环境相关的细胞,使⽤了19个⿊⾊素瘤病⼈肿瘤样本45个细胞的数据集2. 为了研究免疫细胞基因表达的特征, 使⽤了来⾃4个健康受试者的外周⾎4000个细胞的数据集。3. 使⽤四个卵巢癌腹⽔样本3114个细胞的数据获得了免疫和肿瘤细胞基因表达谱数据。
对三个单细胞数据集合并和标准化,然后⽤t-SNE和DBSCAN算法进⾏细胞亚群分类。为了便于对分类算法进⾏基准测试,将细胞主要分为9个亚群(如图1a所⽰)。肿瘤活组织检查可能包含来⾃肿瘤⾎管和⾎管近处渗出的免疫细胞。因此,PBMC和肿瘤相关免疫细胞之间可能存在部分重叠。
分析了每⼀个细胞亚群的基因平均表达谱之间的两两相似性,与单个细胞相⽐对背景噪声的定量和稳健性更强。结果如图1b所⽰,⼤多数簇虽然不同,但与来⾃相同细胞类型的簇关联最密切。这是⼀个重要的质量控制步骤,证实了数据处理和规范化策略成功地缓解了潜在的批次效应,Tregs似乎在三个不同的数据集中最明显,潜在的表明和所依赖的数据集的相关。作者观察到每个细胞类型的频率在每个样本中似乎是不同的,如图1c所⽰。与腹⽔或⿊⾊素瘤样本的细胞组成相⽐,来⾃不同供体的PBMC样本的细胞组成更相似。
▲图1 不同来源单细胞基因表达谱的⽐较
a. 基于基因表达谱的相似性,采⽤降维技术t-SNE将单个细胞⼆维排列, 不同的簇与细胞类型(颜⾊)和数据源(符号类型:PBMC数据集的正⽅形、⿊⾊素瘤数据集的三⾓形和腹⽔数据集的菱形)相关联
b. 细胞亚群的平均基因表达谱成对相关,如树状图所⽰
c. 每个样品的细胞数量和细胞组成
2. 使⽤单细胞数据作为反卷积的基准
为了研究普通转录组表达谱数据的反卷积结果如何受到微环境特异性变化和患者间差异性的影响,通过不同策略对各个组织来源和患者的RGEPs数据集进⾏平均,并使⽤这5类RGEPs对已知细胞组成的样本进⾏⽐较推测其细胞组成。RGEP1是仅源于PBMC单细胞测序数据集,不适⽤与对肿瘤相关细胞类型的推导;RGEP2包括了三个数据集的所有细胞类型(PBMC、⿊⾊素瘤和腹⽔);RGEP3可以特定指⽰细胞类型和细胞的样本类型;CNTR1根据个体对肿瘤细胞类型划分,组织来源对⾮肿瘤细胞进⾏划分;CNTR2的所有细胞的类型划分通过个体的具体信息。
▲图2 构建五类RGEP以对估计精度进⾏衡量:
a. 收集多个病⼈的不同位置来源(⿊⾊素瘤、腹⽔、PBMC)的单细胞基因表达谱,颜⾊表⽰细胞类型,数字表⽰病⼈样本,符号表⽰来源位置(三⾓形代表⿊⾊素瘤、⽅形代表PBMC和菱形代表腹⽔)
b. 从三个单细胞数据集构建RGEP:
RGEP1:基于PBMC数据,按照细胞类型分类,计算每个细胞类型的表达谱; RGEP2:不考虑样本来源,将细胞按照类型归类,计算每个细胞类型的表达谱;RGEP3:按照细胞类型和样本组织来源分类,计算每个细胞类型的基因表达谱; CNTR1:肿瘤细胞按照个体划分,⾮肿瘤细胞按照样本组织来源和细胞类型分类 CNTR2:所有细胞类型按照个体信息划分。
3. RGEP的来源和质量对反卷积的结果的影响
通过合并27个样本的原始数据,⼈为构建“bulk” 基因表达数据,通过5个RGPEs并使⽤
CIBERSORT的算法对普通转录组测序数据进⾏反卷积。CIBERSORT算法最初是为微阵列数据的反卷积⽽开发的,在这⾥作者展⽰了该算法可以应⽤于RNA测序数据。
所有的反卷积都使⽤⼀组特征基因集,该基因集包括1076个基因,这些基因被证实能最⼤限度地分化各种细胞类型。将估计的细胞⽐例与27个样本中的细胞真实⽐例进⾏⽐较(图3a)。估计细胞组成与真实细胞组成之间的⽪尔逊相关系数被⽤作预测准确性的度量(图3b)▲图3 细胞成分的估计精度取决于RGEP的来源和质量:
a. 27个样本真实数据的散点图和估计的细胞⽐例。每个点代表⼀个样本。靠近对⾓线的值对应着较⾼的反卷积精度。列表⽰细胞类型;⾏表⽰五种不同的表达谱 (RGEP1-3和CNTR1-2)。ρ表⽰的⽪尔森相关系数。在表达谱RGEP1中,肿瘤相关细胞类型的估计数不可⽤.
b. 基于5个表达谱估计的细胞百分数和真实的细胞百分数的相关系数。点表⽰相关系数的中值;阴影表⽰基于扩展的不确定性(上四分位数和下四分位数)。(请注意图形轴的不同⽐例。)
总的来说,基于RGEP1的估计精度 (Pearson相关ρ=0.82)与RGEP2和RGEP3或CNTR1和CNTR2(Pearson相关ρ≥0.98)相⽐较低,对于RGEP1,对T细胞(Pearson相关ρ=0.88,这⾥没有区分亚型)、B细胞(Pearson相关ρ=0.99)和巨噬细胞/单核细胞(Pearson相关ρ=0.99)的估计效果良好,DC的估计值(Pearson相关ρ=0.04)很差,⽽NK细胞的估计值很低(Pearson相关
ρ=0.78)。对于RGEP2(Pearson相关ρ=0.82)和RGEP3(Pearson相关ρ=0.95),DCs的估计显著提⾼。对CNTR1(Pearson相关ρ=0.97)来说,DCs的估计精度仍略有改善,对CNTR2来说DCs估计精度(Pearson相关ρ=1.00)达到最⼤值,表明DCs的基因表达严重依赖于样本来源,这与DCs的不同亚群在免疫⽣成中⾼度特异性的证据⼀致 。对于RGEP2到CNTR2,肿瘤相关细胞类型(CAF、EC和恶性细胞)的估计变得可⽤并且被精确地估计(Pearson相关ρ≥0.95)。对于CNTR2,EC和CAF细胞的估计精度与其他四个RGEPs(Pearson相关ρ~0.95)相⽐具有更⾼的精度(Pearson相关ρ=1.00),表明这些细胞类型的基因表达受个体特异性微环境的影响。
对于T细胞,每个亚群分别进⾏估计。在图3中,添加所有T细胞亚群的估计值以获得每个样本的总T细胞⽐例。单个T细胞亚群的结果是特有的(见图4)。考虑到T细胞⽐率对治疗结果的重要性,作者进⼀步分析了T细胞亚群的估计精度以及治疗相关的T细胞⽐率(图4)。令⼈惊讶的是,对于CD8+T细胞,对所有RGEP,估计结果是准确的(Pearson相关ρ~0.95)。对于CD4+T和调节性T细胞,使⽤RGEP1来估计得出的结果⼀般(Pearson相关ρ=0.63和
ρ=0.43),但对RGEP2有显著的改善(Pearson相关ρ=0.87和ρ=0.94),表明T细胞的基因表达受病⼈特异性微环境的影响。
▲图4 T细胞群内T细胞亚群的估计精度和临床相关的T细胞⽐率及其与RGEP来源和质量的关系 a.27个样本真实数据的散点图和估计的细胞⽐例。每个点代表⼀个样本。靠近对⾓线的值对应着较⾼的卷积积精度。列描述细胞类型;⾏描述五种不同的表达谱 (RGEP1-3和CNTR1-2)。ρ表⽰的⽪尔森相关系数。在表达谱RGEP1中,肿瘤相关细胞类型的估计数不可⽤
b. 基于5个表达谱估计的细胞百分数和真实的细胞百分数的相关系数。点表⽰相关系数的中值;阴影表⽰基于扩展的不确定性(上四分位数和下四分位数)。(请注意图形轴的不同⽐例。)
总之,利⽤合适的表达谱数据(基于特定指标的基因表达谱RGEP3)进⾏反卷积⾜以获得对样本细胞组成的可靠估计,⽽不需要具体的病⼈细胞类型数据。利⽤基于外周⾎数据(RGEP1)或基于所有三个数据集平均值的(RGEP2)基因表达谱进⾏反褶积的准确性要低得多。当考虑到距离平分线的距离(如图4所⽰)作为估计精度的度量时,作者发现调节性T细胞存在⼀致的⾼估。调节性T细胞含量的估计会与其表达谱相似的⾮调节性CD4+T细胞相混淆。对于⾮调节性CD4+T细胞,由于⾮调节性CD4+T细胞的总百分⽐⾼于调节性T细胞的百分⽐,因此⾮调节性CD4+T细胞的含量会存在相应的低估,尽管存在T细胞亚型的偏差,但是临床相关T细胞⽐率的估计不受影响。
为了探讨相似的细胞类型分布或缺失的细胞类型分布对估计精度的影响,作者系统地评估了从RGEP3中去除⼀个细胞类型分布的情况。对于⼤多数情况和细胞类型,删除其他细胞类型的表达谱不会影响估计精度。CD4+T细胞、巨噬细胞/单核细胞以及恶性肿瘤细胞类型的估计准确性对所有变化都具有稳定性。作者观察到⼀些更紧密相关的细胞类型的估计精度降低。去除
CD4+T细胞会影响CD8+T细胞估计的准确性,⽽去除CD8+T或CD4+T细胞都会影响调节性T细胞估计的准确性,去除巨噬细胞/单核细胞影响B细胞的准确性,去除B细胞或巨噬细胞/单核细胞会影响树突状细胞的准确性,去除CD8+或CD4+T细胞影响NK细胞的准确性,去除⿊⾊素瘤细胞表达谱影响内⽪细胞和成纤维系细胞的准确性。
为了确定使⽤备选基因集对反卷积的影响,作者使⽤性能最好的RGEP3和四个附加基因集以及三个备选反卷积算法重复分析。有趣的是,与RGEP的来源和质量的影响相⽐,不同基因集和解卷积算法的影响相对较⼩。
4.利⽤独⽴数据对反卷积结果进⾏验证
作者使⽤四个卵巢癌腹⽔样本中的三个样本的普通转录组数据,应⽤反卷积⽅法和RGEP3获得样本的细胞组成。此外,使⽤相同的三个样本,通过FACS⽤实验来对细胞成分进⾏定量和单细胞RNA测序并利⽤算法进⾏细胞类型的分类。图5a显⽰了这三个样本的数据⽣成的⽰意图,图5b显⽰了通过三种不同⽅法获得的结果⽐较。
总的来说,结果是⼀致的。由于这三种⽅法都有内在误差,它们只提供样本的细胞估计组成。这种偏差是符合预期的,并且可能源⾃样品处理的差异。在作者的验证数据中,观察到⽤FACS定量时,巨噬细胞/单核细胞群体的估计值降低。基于单细胞测序的细胞分类⾼估了样本中巨噬细胞/单核细胞的⽐例。类似地,反卷积⽅法低估了CD4+T细胞的⽐例,也低估了低丰度的树突状和NK细胞亚群含量。
▲图5 对3例卵巢癌腹⽔标本进⾏了单细胞测序和普通转录组测序,以及FACSa. 三个卵巢癌腹⽔样本的数据和结果⽣成流程图
b. 细胞组成的估计是通过:(1)基于单细胞RNA测序数据的分类;(2)利⽤单细胞RNA测序衍⽣的RGEP3进⾏普通转录组测序数据的反卷积;(3)FACS定量。对于样本72,巨噬细胞/单核细胞的定量不能被FACS测定.
作者⽤FACS实验⽐较了腹⽔样品的预测细胞组成。如图所⽰,预测的分类结果与已报道的结果以及FACS测量结果⼀致。
▲图6 对细胞类型分类进⾏⽂献对照和实验流式细胞仪分析
a. FACS细胞分类结果(左边,深⾊)与Tirosh等⼈提供的数据集中所有⿊⾊素瘤样本的细胞类型进⾏⽐较(右边,浅⾊)
b. 三例卵巢腹⽔样本的细胞类型分类(左边,深⾊)与FACS数据(右边,浅⾊)的⽐较, 对于样品72M,FACS没有定量到巨噬细胞/单核细胞。
5.肿瘤细胞基因表达谱的估计
使⽤scRNA-seq数据,通过计算估计每个病⼈样本的肿瘤细胞表达谱,并将其与真实的肿瘤细胞谱进⾏⽐较(图7a)。由于某些基因,如管家基因,在所有细胞之间相互关联,因此预期存在⼀定的基线相关性。作者通过将⾮恶性细胞的基因表达谱与真实的肿瘤细胞基因表达谱相关联来估计这⼀基线的相关性。作者观察所有样品的⼀个基线⽪尔逊相关性为ρ0.7 - -0.8,不考虑样本和样本中估计的肿瘤细胞⽐例如何。正如所预期的,肿瘤细胞表达的估计精度随着肿瘤细胞含量的增加⽽提⾼(图7b)。
▲图7 病⼈特异性肿瘤细胞基因表达谱的估计准确性
a. 单个病⼈样本的肿瘤细胞的估计与真实转录组基因表达(17933个基因)的散布图。没有肿瘤细胞的病⼈样本已被排除在该分析中。ρ表⽰⽪尔逊相关。灰⾊背景的相关图显⽰肿瘤细胞含量低于20%的病⼈样本,颜⾊根据b组中的图例。
b. 来⾃a组的相关值与每个病⼈样本中肿瘤细胞的估计⽐例相对应。阴影表⽰基于扩展的不确定性。(上四分位数和下四分位数)符号和编号表⽰单个病⼈样本。
当样本中肿瘤细胞的估计⽐例超过20%时,估计的肿瘤细胞基因表达谱与真实的表达谱的⽪尔逊相关显⽰出ρ>0.9。与未校正的整体基因表达谱相⽐,在肿瘤细胞⼤于20%但⼩于70%的样品中预测的肿瘤细胞基因表达谱与真实肿瘤细胞基因表达谱具有更好的相关性。如果⼀个样本含有超过70%的肿瘤细胞,则整个样本的基因表达谱已经由肿瘤细胞主导,不需要任何减法(去掉多余的细胞表达谱)。对于⼩于20%的肿瘤细胞样本,由于肿瘤细胞基因表达的信号低,所以减法不能改善估计精度。此外,整个样本的基因表达谱也不能提供阴性对照中肿瘤细胞谱的信息,阴性对照中为⾮肿瘤细胞谱。综上所述,对于肿瘤细胞含量在20 - 70%之间的样本,反卷积可以显著改善基因表达谱。
⽂章讨论
本⽂展⽰了如何将反卷积⽅法应⽤于普通转录组基因表达数据以推断细胞组成,以及提供从普通转录组基因表达数据将细胞异质性与⽣物功能或药物反应联系起来的⼯具。作者展⽰过细胞类型特异性指⽰的RGEP反卷积⽅法,如CIBERSORT,可以精确地估计指定的活检样本的细胞组成,并且通过消除来⾃⾮恶性细胞的污染,还提供关于肿瘤细胞基因表达谱的更准确的信息。如果肿瘤细胞含量在20%到70%之间,则这最相关。
对不同的RGEPs和不同的反卷积算法进⾏基准测试,结果表明RGEP的来源和质量最终决定了估计精度。来源于PBMC的RGEP不⾜以精确地反卷积肿瘤普通转录组基因表达数据。通过将完善的反卷积算法与最先进的肿瘤活组织切⽚的单细胞RNA-seq数据相结合,作者发现,直接从肿瘤微环境中获得的免疫、基质和肿瘤细胞的特征表达谱可⽤于获得对给定样本的细胞组成的精确估计。然⽽,病⼈之间的差异性将继续是反卷积⽅法的⼀个混淆因素。解决这⼀问题的⼀种策略是分析来⾃不同肿瘤类型的⼤量匹配肿瘤和⾎液样本,并量化病⼈之间的差异性对所提出的反卷积⽅法的影响。