glean工具

当用各类工具完成了注释后,一个问题是,每一个基因组区域,都会获得大量redundant的基因结构注释,到底哪一个注释才是最可靠的?所以,我们需要一个整合工具。

有一种工具是通过统计打分,先手工注释一些基因,然后把所有的自动注释结果跟手工注释比较,给各个工具打个分,最后用这个打分矩阵扩展到所有的基因上。常用的有glean,它不需要training。

GLEAN是一个无监督的学习系统,可以整合不同来源的基因结构证据(基因模型预测,EST /蛋白质基因组序列比对,SAGE /肽标签等)以产生一致性的基因预测,而无需事先训练。

我们使用GLEAN 创建了蜜蜂(Apis mellifera的共有基因集,这是一种新算法,该算法使用潜在类别分析来在不存在已知基因的情况下自动整合不同的基因预测证据。与任何一种输入基因预测相比,共有基因模型在不牺牲质量的情况下增加了蜜蜂基因的代表性。当与手动注释的金标准进行比较时,基因模型的共有集在质量上与每个输入集相似或更高。

GLEAN是将基因列表组合到单个参考集中的有效方法。

evidence modeler是pasa的开发者做的另一个工具,文档详细,使用简单,而且它自带很多格式转换代码,虽然这个工具也需要training,但是它也可以人工打分,虽然人工给的不是最好 http://evidencemodeler.sourceforge.net/

参考来源:

https://genomebiology.biomedcentral.com/articles/10.1186/gb-2007-8-1-r13

maker工具

从头构建一个物种的基因组,至少包含三个步骤:序列拼接、基因结构注释和基因功能注释。

其中,基因结构注释原理上是最为复杂的,需要首先根据序列结构、已有的转录本序列、蛋白序列,寻找基因结构的证据,然后对这些证据进行整合,给出最终判断。在注释之前,还要考虑重复序列的影响

MAKER 是一款强大的结构注释流程,它整合了所有以上步骤涉及到的主流算法和软件,使我们能够快速完成基因结构注释

本课程介绍基因结构注释的原理以及 MAKER 的用法。

MAKER官网:http://www.yandell-lab.org/software/maker.html

MAKER软件使用说明

输入文件,主要有三个(fasta格式):

   基因组序列、RNA序列(ESTs/cDNA/mRNA transcripts) 、相关或者近源物种的蛋白质序列

 

运行maker –CTL,生成如下三个文件:

•   maker_exe.ctl – contains the path information for the underlying executables.

•   maker_bopt.ctl – contains filtering statistics for BLAST and Exonerate

•   maker_opt.ctl – contains all other information for MAKER, including the location of the input genome file.

 

修改中的maker_opts.ctl的参数。

运行maker

参考来源:

http://www.genek.tv/course/52

http://blog.sina.com.cn/s/blog_83f77c940102vzeo.html