为什么要对进行基因定量
转录组数据分析中,一个转录本反转录后的cDNA会被打碎成片段测序并和基因组比对,就会导致长转录本在给定的cDNA长度下可能会映射更多的cDNA,也就是说基因长度会影响Reads数。
测序深度是指测序过程中每个碱基被测序的平均次数,其计算公式为:$\frac{Reads数*Read长度}{参考序列长度}$:例如,对长100bp的目标区域进行捕获测序:采用单端测序,每个read长5bp;总共得到了200个reads;把所有的reads比对到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之,剩余的2bp没有1个read覆盖。则测序深度为 200 x 5 / 100 = 10 我们说这此测序的深度为10X。显而易见,若测序越深,则对于相同长度的转录本,测序所得的Reads数更多。
综上所述,测序深度、基因长度和Reads数相关,所以需要在最终基因表达计数中去除相应的影响。注意,在基因定量的过程中,可能会由于样本本身的原因,如某个基因Reads数过高,导致基因定量后其他基因的表达量低于实际情况,这也是基因定量过程中需要去考虑的。
Raw count
所谓Raw count,又称为count数,和上一部分所说的Reads数是同一概念,是指和参考序列比对上的序列数目。原始的读取计数矩阵使用Raw count作为基础,但由于不同基因的长度和测序深度存在差异,因此无法直接比较。为了消除技术偏差的影响并赋予后续差异分析以统计学意义,需要对这些基因计数矩阵进行标准化处理,将其转化为相对值。
但注意,我们进行基因定量时需要充分考虑测序技术和原理,如在 10x 基因组学基因表达检测中,每个转录本都标有作为唯一分子标识符 (unique molecular identifier,UMI) 的序列。这些 UMI 能够准确定量基因表达水平,因为我们可以分辨出哪些读段是从同一个 mRNA 分子中产生的。因此,Cell Ranger 和 Space Ranger 执行 UMI 计数(不是读取计数)以测量基因表达水平,并且所有二次分析步骤都基于 UMI 计数执行。在传统的RNA-seq数据中,完整的转录本被片段化,然后进行cDNA合成、末端修复和衔接连接。在此工作流程中,从长转录本中采样片段的概率高于从短转录本中采样的概率。因此,按转录本长度(例如,TPM、RPKM、FPKM)对读取计数进行归一化是有意义的。然而,在 10x 基因表达测定中,这种基因长度偏差并不存在。因此,不建议按基因长度对UMI计数进行归一化。
RPKM/FPKM
RPKM (Reads Per Kilobase of exon model per Million mapped reads):每千个碱基的转录每百万映射读取的reads数,是针对单端测序的基因定量方法;FPKM (Fragment Per Kilobase of transcript, per Million mapped reads):每千碱基片段每百万映射读取的 reads 数,是针对双端测序的基因定量方法。
以RPKM为例,其操作方法为:
- 计算样本中的总读数,然后将该数字除以 1,000,000——这是“每百万”比例因子;
- 将读取计数除以“每百万”比例因子。这针对测序深度进行了归一化,得到每百万次读数(reads per million,RPM);
- 将 RPM 值除以基因的长度,以千碱基为单位,得到RPKM。
在第二代测序过程中,常采用一种方法将DNA分子打碎成片段(fragment),然后进行测序。在单末端测序中,每个片段对应一个读取序列(Read),而在双末端测序中,每个片段将从两个端点分别进行测序。因此,这两个成对的读取序列对应于同一个片段(虽然偶尔会出现只有一个读取序列与某个片段相对应的情况,这是由于某些原因导致另一个读取序列被排除或丢失了)。在这一点上存在着区别,对于FPKM(每百万片段计数)这一测量指标而言,与同一片段相关联的两个读取序列只被计算为一个读取序列。换句话说,FPKM是基于片段计数,而不是基于读取序列数量计算的,其他计算方法完全相同。
两者计算公式如下:
TPM
TPM(Transcripts Per Million) 是一种常用的基因表达量归一化方法,它将基因的表达量调整为每百万条转录本的数量。TPM 值考虑了基因的长度和测序深度,通过将每个基因的 Counts 值除以其长度,并进行适当的归一化,将基因的表达量转换为每百万转录本数,以便进行样本间的比较和分析。TPM 值消除了样本间测序深度的差异和基因长度的影响,实质上,TPM相当于重新标准化的文库,保证每个样本中所有TPM的总和是相同的。TPM 与 RPKM 和 FPKM 非常相似。唯一的区别是操作顺序。以下是计算 TPM 的方法:
- 将读取计数除以每个基因的长度(以千碱基为单位),得到每千碱基读数(reads per kilobase,RPK);
- 计算样本中的所有 RPK 值的和,并将此数字除以 1,000,000,得到如前的“每百万”比例因子;
- 将 RPK 值除以“每百万”比例因子,得到TPM。
综上,在计算TPM时,和前述指标唯一的区别是你首先对基因长度进行归一化,然后对测序深度进行归一化。然而,这种差异的影响是相当深远的。
使用 TPM 时,每个示例中所有 TPM 的总和是相同的。这样可以更容易地比较每个样品中映射到基因的reads比例。相比之下,使用RPKM和FPKM,每个样本中归一化读数的总和可能不同,这使得直接比较样本变得更加困难,在某种意义上,TPM降低了样本本身的影响,从而让样本具有可比性,即TPM实际上改进了RPKM/FPKM方法在跨样品间定量的不准确性。
其计算公式如下:
适用范围
- 如前所述,基于测序计数选择基因定量的方案,如对于10×测序,直接使用原始Count即可;
- 对于传统的二代测序,应当进行标准化基因定量:
- RPKM和FPKM已经不推荐使用(参考:Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples;comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis);
- TPM、DESeq适合组间比较,有研究更推荐DESeq进行组间比较(comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis;TPM, FPKM, or Normalized Counts? A Comparative Study of Quantification Measures for the Analysis of RNA-seq Data from the NCI Patient-Derived Models Repository)。
参考
- Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples
- comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis
- TPM, FPKM, or Normalized Counts? A Comparative Study of Quantification Measures for the Analysis of RNA-seq Data from the NCI Patient-Derived Models Repository
- Should I calculate TPM, RPKM or FPKM, instead of counts for 10x Genomics data? – 10X Genomics
- RPKM, FPKM and TPM, clearly explained | RNA-Seq Blog