测序:

  如何计算测序深度,或产出的数据量?

    10的9次方=1G

     如果测序的read是pair-end的、且每条read长150bp,则,平均测序深度为=(reads数×150bp×2)/(3*10的10次方)。

      即:测序得到的碱基总数/人类基因组的碱基对数=平均测序深度。

      比如,我想得到30x的测序数据,那么需要的数据量是90G的数据。(此处,还不甚了解,我觉得应该是900G的数据啊)

      (人类基因组有30亿个碱基对(3*10的10次方))

       

  测序错误率:一般选择的阀值是10的-3次方,即测序错误率是0.001。(PCR的错误率是10的-6次方)

  coverage与depth的概念:coverage指的是测序数据覆盖的人类基因组的碱基数。depth指的是平均每个碱基被测序read覆盖的次数(即被测到的次数)。

  index的含义:index用来区分不同的样本。单端index共6个碱基,排列组合,共4的6次方个碱基,无法区分66个样本。故,需要采用双端index。

      双端index,分为i5和i7端。i5端有8个碱基,i7端有12个碱基。

  测序的cycle:一个cycle读取一个碱基。也称为:base call。若有index序列,则测序仪会多读几个cycle。 

  文库构建:

    加Y型adapter的目的:1)区分read1和read2,即DNA链的两端;2)防止adapter自连。

    Y型adapter不是互补的,两端的序列不一致。

    10ng的DNA就可以建库,测序。 

  WGS:

    全基因组的重复率是20%,用picard统计duplicate的工具(原理:map位置相同,cigar值相同)。

    建库流程:提取全基因组,打断、末端不平加A,加adapter,PCR扩增,测序。

        区别cfDNA的靶向建库:cfDNA已经是断裂的片段,所以不需要打断、末端补平加A的步骤,只要提取游离DNA后,用引物扩增即可。

  target sequencing:

    只对特定区域的进行测序。对cfDNA测序时,不需要打断、末端加A的处理。因为cfDNA已经是片段化的了。

  测序仪:

    一个flowcell可以看做是一个板(看做一个房间)。一个flowcell上有8条lane(像管子一样),一条lane可产生60G的数据(1条lane测多少数据是固定的)。每条lane上有很多个tile,每个tile都有(x,y)坐标位置,即read长簇的位置。

    Xten测序仪只能测单端index,无法测双端index。

    边合成边测序。dnTP。参照下面的两张图:

  测序基础知识–整理-风君雪科技博客

测序基础知识–整理-风君雪科技博客