什么是主成分分析?
主成分分析(PCA)是一种用于数据降维、特征选择的统计分析方法,目的是减少数据的维度,同时保留尽可能多的信息。找到一个新的坐标系,使得数据在新的坐标系下的方差最大。
PCA结果怎么看呢?
PCA结果图主要由5个部分组成
①第一主成分坐标轴及主成分贡献率主成分贡献率,即每个主成分的方差在这一组变量中的总方差中所占的比例
②纵坐标为第二主成分坐标及主成分贡献率
③分组,图中分为TNBC组和非TNBC组,探究两者之间的关系
④通常为百分之95置信区间,不同的圆圈代表不同分组。样本组之间的分离程度,距离越远,分离越显著。圆圈越紧凑表示数据点在这个主成分上的分布比较集中,反之则越分散
⑤表示样本的点,不同的颜色或形状表示不同的分组情况。样本点之间连线距离短,则样本之间差异性小;反之,样本之间差异大;若圆点在圆圈外,则为离散样本,无统计学意义
主成分分析的作用是什么?
通过观察 PCA 结果,我们可以获得这些信息:
1.数据分布:可以看出数据点在低维空间中的聚集或分散情况,以及是否存在明显的群组或异常值。
2.主成分的解释:根据主成分的方向和重要性,可以对数据中的主要模式和特征进行解释。
3.变量的相对重要性:主成分的权重可以反映原始变量在解释数据差异方面的相对重要性。
END
通过主成分分析(PCA),我们不仅能够直观地了解每个样本的特征,还可以对样本进行聚类,从而观察它们之间的相关性和差异性。
在医学领域,PCA图常常用于疾病危险因素分析、肠道菌群聚类分析、推测肿瘤亚群之间的进化关系等。它还被广泛应用于样本分组、趋势观察和异常数据的剔除,在文献中也有着较高的出现频率。