文库网
首页 > 小知识

CESAR使用教程(2)

2023-04-08 来源:文库网
export maxMemory=...# maximum amount of memory in Gb that CESAR 2.0 can allocate. With 30 Gb, all but 3 human genes succeed. With 50 Gb, all human genes succeed.
export profilePath=...# path to the directory that contains the extra subdirectory containing CESARs profiles and matrices
export cesarTools=...# path to the tools directory. This must contain the cesar binary and other tools such as formatGenePred.pl that are bundled together in the tools directory
export PATH=$PATH:$cesarTools
第二部,首先将genePred生成输入文件
formatGenePred.pl ${inputGenes} ${inputGenes}.forCESAR ${inputGenes}.discardedTranscripts
通常,这一步会考虑所有的编码外显子。但是丢弃如下外显子
1. 3‘或者5’段具有不完整的CDS 2. CDS的长度不是3的整倍数 3. 转录本内含子小于30bp的
所有舍弃的外显子会保存在${inputGenes}.discardedTranscripts文件。formatGenePred.pl会输出所有的编码外显子,但是如果你希望只输出每个基因最长的转录本,应该在最后加上-longest
formatGenePred.pl ${inputGenes} ${inputGenes}.forCESAR ${inputGenes}.discardedTranscripts -longest
第三步,将每个将CESAR2.0的命令作用于所有转录本
annotateGeneViaCESAR.pl每次只处理一条转录本。如果转录本数目过多,会花费大量的计算时间。如果想要进行并行计算,或者在集群上运行。可以针对上一步输出的每一个转录本使用该脚本进行计算。
for transcript in `cut -f1 ${inputGenes}.forCESAR`; do
echo annotateGenesViaCESAR.pl ${transcript} ${alignment} ${inputGenes}.forCESAR ${reference} ${querySpecies} ${outputDir} ${twoBitDir} ${profilePath} -maxMemory ${maxMemory}
donejobList
jobList中的每个命令都可以单独运行。然后
chmod x jobList
./jobList
或者使用parallel -j int并行运行程序
第四步,每一条转录本都处理完后,将所有结果整合
bed2GenePred.pl处理每一物种
for species in `echo $querySpecies | sed s/,/ /g`; do
echo bed2GenePred.pl $species $outputDir /dev/stdout | awk {if ($4 != $5) print $0}$resultsDir/$species.gp
donejobListGenePred
chmod x jobListGenePred
mkdir $resultsDir
./jobListGenePred
该命令会在$resultDir生成genePred格式的文件。
好啦,以上就是CESAR使用教程全部内容,都看到这里了还不收藏一下??搜索()还能找到更多精彩内容。

猜你喜欢