CESAR使用教程
CESAR使用教程
本文核心词:CESAR2.0 (Coding Exon Structure Aware Realigner 2.0)是一款利用隐马尔可夫模型将编码外显子或者编码基因重新比对到DNA序列上的软件。
相比较CEASR第一代,第二代在计算速度上和内存使用上都有明显提升。同时,CEASR2.0在分析跨度范围较大的剪切位点的识别,可以更加精确的检测外显子的边界。第二,CEASR2.0提供了新的模型,可以一次重新比对全部基因。该模型可以识别内含子缺失(intron deletion),以及内含子缺失引起的较大的链接外显子(joined exons)。
话是这么说,但是该软件对应的文章引用量实在是少,CESAR是23次,CESAR2.0只有7次
软件安装
只需要输入make编译即可。会生成二进制包cesar。
使用命令make doc会在对应目录下生成doc/doxygen/index.html的帮助文档。
软件完整的流程还需要mafSpeciesSubset二进制包。CEASR2.0对该包进行了修改,添加了--speciesListd参数。
cd /kent/src
make
cd ../../
export PATH=`pwd`/kent/bin:`pwd`/tools/:$PATH在多个基因组间进行基因注释输入文件
输入文件要求包含参考基因组的编码基因的注释,格式符合UCSC的genePred格式。具体的genePred的格式介绍可以看genePred format。UCSC提供了多种动物的genePred格式的注释信息。也可以使用UCSC的bedToGenePred或者gff3ToGenePred工具进行转换。转换完成后可以使用UCSC的genePredCheck检查格式是否正确。
注意,不要使用gtfToGenePred进行转换。该脚本转换后的结果缺少CDS注释,而CDS注释对于CESAR2来说是很重要的
2bit文件夹包含了所有物种以及参考物种的基因组。每个物种对应该文件下一个子文件夹,子文件的命名对应组装的名字(例如,hg38对应人类,mm10对应老鼠)。子文件夹必须包含2bit格式的基因组文件和chrom.sizes文件。chrom.size包含了所有scaffolds的size。该文件可以使用twoBitInfo assembly.2bit chrom.sizes获得。
maf格式的基因组比对文件。使用
mafIndex alignment.maf alignment.bb -chromSizes=/path/chrom.sizes
获得bigBed格式的index文件
运行程序
第一步,定义变量
export inputGenes=...# the genePred file containing the genes in the reference
export reference=...# the assembly name of the reference
export twoBitDir=...# the directory containing the genomes and chrom.size files.
export alignment=...# the alignment index file
export querySpecies=... # a comma-separated list of the query species that you want to annotate. Each query species must be contained in ${alignment}.
export outputDir=...# name of CESAR2.0 output directory that will contain exon coordinates (in subdirectories). The directory will be created, if it does not exist.
export resultsDir=...# directory containing the final gene annotation (one genePred file per species)