【代谢组学】3.数据分析

目录非靶向代谢组实验设计数据分析流程 1.数据预处理 2.数据质控 3.统计分析

非靶向代谢组实验设计

1.代谢物提取，一般要求每组至少10个样；
2.在所有提取好的样本中取等量混合作为QC；
3.QC样本与实验样本穿插上机，开始十个QC，结尾三个QC，中间每十个样本穿插一个QC样本
。

得到质谱谱图数据经软件处理后得到峰表。
峰表格式一般为：每行为一个m/z，每列为一个样本
数值表示该样本中某个m/z的信号响应。

第一列为保留时间_质荷比来代表离子，如0.10_96.9574m/z。

数据分析流程

一般有如下几点：
1.数据预处理。如缺失值过滤填充、数据归一化等。
2.数据质控。包括CV分布、QC等。
3.统计分析。包括单变量、多变量等。
4.功能分析。包括Pathway、网络分析、Biomarker筛选等。

1.数据预处理

缺失值处理
1）缺失原因
a. 信号很低检测不到；
b. 检测错误，如离子抑制或者仪器性能不稳定；
c. 提峰的算法限制，不能从背景中将低的信号提取出来；
d. 解卷积时不能将重叠的峰全部解析出来。

2）缺失值过滤
比如：
QC样本中缺失超过50%的去除；
样本中缺失值超过80%的去除。

3）缺失值填充
— 最小值填充
— 平均值/中值填充
— KNN（ k-nearest neighbour）填充
— BPCA（Bayesian PCA）填充
— PPCA（probabilistic PCA）填充
— Singular Value Decomposition (SVD)
一般推荐KNN。

噪音信号去除
一般是低质量的离子。
1）低质量离子的确定：
计算某个离子在QC样本中的RSD（标准差/均值）；其值越小，说明偏差越小；

2）判断标准：
— 对单个离子峰而言，RSD<0.3，则该离子峰合格，否则去除；
— 对于整体数据而言，RSD<0.3，峰所占比例>60%，则整体数据合格；

样本归一化
目的是为了提高样本间的可比性。
样本间有差异性，如不同人的尿液浓度不同，不能直接拿来比较。

可在采集前归一化，如肌酸酐归一化；也可在采集后归一化，如sum，pqn，quantile等。对于数据分析而言，通常是后者，如总和归一化（sum）。

数据转换
下游的分析一般要求数据为正态分布或者高斯分布；
所以数据通常要进行Log转化或power转化，这两者都能够将极大值的抑制效应消除，并且能够调整数据的分布，如下图；

Log转化对0值比较敏感，必须首先去除零值。

数据转换——scaling
目的是消除极大值效应。
对不同样本中同一个m/z的强度差异过大进行调整，极大值的存在往往会掩盖较低值的变化特征。

可将某个m/z在所有样本中的强度的值，除以一个因子（SD值）；
方法如auto (uv)，pareto（推荐），vast， range等。

相当于上面样本归一化是为了样本可比，scaling是为了离子可比。

2.数据质控

QC样本的TIC重叠情况

上图分别是阴离子和阳离子模式下QC样本的TIC重叠情况。

一般认为：
所有的QC样本峰重叠良好；
峰强度波动差别不大；

QC样本中CV<30%的峰所占比例

PCA中QC样本的聚集程度

QC样本的相关性

上图分别为归一化前和归一化后的数据。

3.统计分析

单变量分析
一次只分析一个变量，即一个m/z，考察不同组别不同样本的这个m/z表达有无差异？
常见的方法有倍数分析，t检验，秩和检验，方差分析等。

聚类分析
核心思想就是根据具体的指标(变量)对所研究的样品进行分类；
聚类分析需要设定一个方法来衡量样本间的相似性或者不相似性（常用欧式距离，相关性系数等）；
常见聚类的方法：系统聚类（层次聚类）、K-均值聚类等。

K-均值首先要估计出将要分出几个类，然后将全部的基因按照相似性的距离，归入这几类中。
K– means计算量要小得多，效率比层次聚类要高。

无论哪种分类方法，最终要分成多少类，并不是完全由方法本身来决定，研究者应结合具体问题而定。
聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同。
使用聚类方法时，首先要明确分类的目的，再考虑选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。

多变量分析
1）PCA分析
以下分别是得分图（样本在新的坐标系中的位置
）和载荷图(loading图，原变量与主成分间的夹角)

PCA怎么看？

组内差异
组间差异
异常样本
PC1与PC2得分

2）偏最小二乘法
PLSDA的图和PCA类似。只是一种监督学习的方法，事先给样本分类，最后看能否将不同组分开。

用R2和Q2进行模型评价。
R2是相关性系数，表示这个模型的拟合效果，是一个定量的测量（范围0-1），意味着所建立的模型能在多大程度上代表真实的数据；
一般当R2在0.7-0.8表示模型解释能力较好，较差的模型的R2往往为0.2-0.3

Q2表示PLS-DA模型的预测能力；
一般Q2大于0.5表示预测能力较好，并且R2与Q2的值应该比较接近。

使用permutation test模型进行过拟合检验。

VIP ( Variable Importance in Projection)变量重要性投影
每一个m/z都有VIP值，表示这个m/z在某一个主成分上的投影，即重要程度；
一般我们使用第一、第二主成分的VIP来表示这个m/z对模型分型的贡献程度，VIP>=1被认为是具有显著贡献的。

代谢组学数据分析最后两部分内容——功能分析和生物标志物筛选见下节内容