Blast-plus

简介

全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具"。 Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject), 然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。

blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。

blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。

tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。

tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。

可用的版本

版本

平台

构建方式

模块名

2.9.0

arm

spack

blast-plus/2.9.0-gcc-9.3.0 ARM

2.13.0

cpu

precompile

blast-plus/2.13.0-gcc-11.2.0 思源一号

2.13.0

cpu

precompile

blast-plus/2.13.0-gcc-11.2.0

ARM 版本BLAST+

示例脚本如下(blast.slurm):

#!/bin/bash

#SBATCH --job-name=test
#SBATCH --partition=arm128c256g
#SBATCH -N 1
#SBATCH --ntasks-per-node=128
#SBATCH --output=%j.out
#SBATCH --error=%j.err

module load blast-plus/2.9.0-gcc-9.3.0
makeblastdb -in ref.fa -dbtype nucl
blastn -query in.fa -db ref.fa -out blast_result.txt

使用如下指令提交:

$ sbatch blast.slurm

CPU 版本BLAST+

BLAST+预编译文件安装步骤

官网下载预编译文件

$ wget http://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.13.0/ncbi-blast-2.13.0+-x64-linux.tar.gz

解压

$ tar -zxvf ncbi-blast-2.13.0+-x64-linux.tar.gz

添加BLAST+的环境变量

$ export PATH=path/to/blast/bin:$PATH

检验安装,以下命令查看BLAST+版本信息

$ blastn -version

BLAST+运行示例

官网下载基因组并解压

$ wget ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
$ gzip -d Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

调用BLAST+

$ module load blast-plus/2.13.0-gcc-11.2.0

构建核酸BLAST数据库

$ makeblastdb -in Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -dbtype nucl -out TAIR10 -parse_seqids

下载拟南芥protein数据

$ wget ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/arabidopsis_thaliana/pep/Arabidopsis_thaliana.TAIR10.pep.all.fa.gz

构建蛋白BLAST数据库

$ gzip -dArabidopsis_thaliana.TAIR10.pep.all.fa.gz
$ makeblastdb -in  Arabidopsis_thaliana.TAIR10.pep.all.fa -dbtype prot -out TAIR10 -parse_seqids

生成随机序列query.fa

$ echo TGAAAGCAAGAAGAGCGTTTGGTGGTTTCTTAACAAATCATTGCAACTCCACAAGGCGCCTGTAATAGACAGCTTGTGCATGGAACTTGGTCCACAGTGCCCTACCACTGATGATGTTGATATCGGAAAGTGGGTTGCAAAAGCTGTTGATTGTTTGGTGATGACGCTAACAATCAAGCTCCTCTGGT >> query.fa

使用构建好的数据库进行检索

$ blastn -db BLAST/TAIR10 -query query.fa

参考资料


最后更新: 2024 年 10 月 11 日