# 稀疏偏最小二乘判别分析(sPLS-DA)

阅读文章 Evolution of tissue-specific expression of ancestral genes across vertebrates and insects 看到这么一个分析,用来找到组织特异性的表达模块,立马就想学习一下(CSDN 开抄

# PLS-DA

PLS-DA (Partial Least Squares Discriminant Analysis),即偏最小二乘法判别分析,是多变量数据分析技术中的判别分析法,经常用来处理分类和判别问题。通过对主成分适当的旋转,PLS-DA 可以有效的对组间观察值进行区分,并且能够找到导致组间区别的影响变量。

PLS-DA 采用了经典的偏最小二乘回归模型,其响应变量是一组反应统计单元间类别关系的分类信息,是一种有监督的判别分析方法。

偏最小二乘回归模型

在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。

偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

基本过程为:对自变量进行主成分分解,从第一个自变量开始与因变量进行回归,直到满意为止(无所不在的拉格朗日)

why PLS-DA

因无监督的分析方法(PCA)对所有样本不加以区分,即每个样本对模型有着同样的贡献,因此,当样本的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间差异;而当样本的组间差异不明晰,而组内差异较大时,无监督分析方法难以发现和区分组间差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型(组间样本量不均衡)。有监督的分析(PLS-DA)能够很好的解决无监督分析中遇到的这些问题。

与 PCA 分析的原理相同,PLS 利用偏最小二乘法对数据结构进行投影分析。但 PLS 与 PCA 数据有本质的不同,PCA 分析方法中只有一个数据集 X,所有分析都只是基于这个的数据集,对应于一个多维空间。而 PLS 分析是建立在 ** 两个数据集 X 和 Y(自变量与因变量?)** 基础上的,因此也就对应地存在两个多维空间,在利用投影方法计算 PLS 个主成分后,分别得到 X 和 Y 空间的两条轴线以及各个样本点在 X 和 Y 空间周上的得分 t1、u1。

对 X 和 Y 数据的关联分析就是将所有样本在 X 和 Y 空间个主成分轴上的得分 t1、u1 分别作相关分析,可以表示为 ui1 = ti1+ri1,i 表示不同样本,ri1 表示残差。对应的,经过第二个主成分计算可以得到 t2、u2, 有关系式 ui2 = ti2+ri2 。

如果用 t1 、t2 作图,表示数据集 X 的 PCA 得分图,而如果用 t1、u1 作图就表示个主成分下数据集 X 与数据集 Y 相关性。

PLS-DA 只需要一个数据集 X,但在分析时必须对样本进行指定分组(分组作为因变量),这样分组后模型自动加上另外一个隐含的数据集 Y,该数据集变量数等于组别数,赋值时把指定的那一组规定为 1,其他所有值均为 0。其他计算方法与上述 PLS 方法相同。这种模型计算的方法强行把各组分门别类,有利于发现组间的异同点。

# sPLS-DA

sPLS-DA(Sparse PLS discriminant analysis)是 PLS-DA 的一种特殊情况,同时包含变量选择和分类的过程。sPLS-DA 允许变量选择,可以选择数据中最具预测性或判别性的特征,并帮助对样本进行分类。

PLS-DA 模型建立在 X 中的所有基因上,其中许多可能无法提供信息来表征不同的类别。

sPLS-DA 分析的目的是识别出最能区分这两类的一小部分基因。

可用 mixOmics 包实现 http://mixomics.org/methods/spls-da/

在样本不均衡的情况下,可使用 sPLS-DA 代替 PCA,

SNP 分析也可以 https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-253

# 参考

PLS-DA-CSDN 博客

偏最小二乘回归(一):模型介绍_交叉有效性检验 - CSDN 博客

单组学的多变量分析 | 2. 稀疏偏最小二乘判别分析(sPLS-DA)-CSDN 博客

Edited on