Clustalo

简介

Clustalo即Clustal-Omega,是一种用于蛋白质和 DNA/RNA 的通用多序列比对 (MSA) 程序。它可以生成高质量的MSA,并能够在合理的时间内处理数十万个序列的数据集。

在默认模式下,用户提供要对齐的序列文件,这些序列被聚类以生成一个指南树,这用于指导序列的“渐进式对齐”。此外,还具有将现有比对相互对齐、将序列与比对以及使用隐马尔可夫模型 (HMM) 来帮助指导与用于制作 HMM 的序列同源的新序列的比对的工具。后一种过程称为“外部轮廓对齐”或 EPA。

Clustal-Omega 使用 HMM 作为对齐引擎,基于 Johannes Soeding 的 HHalign 包。指南树是使用 mBed的增强版本制作的,它可以在 O(N*log(N)) 时间内聚类大量序列。然后,按照参考树给出的聚类,使用 HHalign 对齐越来越大的对齐方式进行多重对齐。

目前形式的 Clustal-Omega 已经过广泛的蛋白质序列测试,自 1.1.0 版起添加了 DNA/RNA 支持。

可用的版本

版本

平台

构建方式

模块名

1.2.4

cpu

precompile

clustalo/1.2.4-intel-2021.4.0 思源一号

1.2.4

cpu

precompile

clustalo/1.2.4-intel-2021.4.0

Clustalo预编译文件安装步骤

官网下载预编译文件

$ wget http://www.clustal.org/omega/clustalo-1.2.4-Ubuntu-x86_64

重命名后添加可执行权限

$ mv clustalo-1.2.4-Ubuntu-x86_64 clustalo
$ chmod u+x clustalo

添加Clustalo的环境变量

$ export PATH=path/to/clustalo:$PATH

检验安装,以下命令查看clustalo版本信息

$ clustalo --version

Clustalo编译安装步骤

安装clustalo之前,要先安装argtable2-13作为其编译的依赖。

$ wget https://launchpad.net/ubuntu/+archive/primary/+sourcefiles/argtable2/13-1.1/argtable2_13.orig.tar.gz
$ tar -zxvf argtable2_13.orig.tar
$ cd argtable2-13/
$ $ ./configure --prefix=path/to/argtable2-13
$ make check
$ make && make install

添加argtable2-13的环境变量

$ export PATH=path/to/argtable2-13:$PATH
$ export LD_LIBRARY_PATH=path/to/argtable2-13/lib:$LD_LIBRARY_PATH

编译安装clustalo

$ clustalo --version
$ wget https://launchpad.net/ubuntu/+source/clustalo/1.2.4/clustalo_1.2.4.orig.tar
$ tar -zxvf clustalo_1.2.4.orig.tar
$ cd clustal-omega-1.2.4

申请节点进行编译

$ srun -p small -n 4 --pty /bin/bash # Pi2.0
$ srun -p 64c512g -n 4 --pty /bin/bash # 思源一号

调用intel-oneapi编译器

$ module load oneapi/2021.4.0

开始编译

$ ./configure CFLAGS='-I/path/to/argtable2-13/include' LDFLAGS='-L/path/to/argtable2-13/lib' --prefix=/path/to/clustalo
$ make check
$ make && make install

添加Clustalo的环境变量

$ export PATH=/path/to/clustalo/bin:$PATH
$ export PATH=/path/to/clustalo/include:$PATH
$ export LD_LIBRARY_PATH=/path/to/clustalo/lib:$LD_LIBRARY_PATH

检验安装,以下命令查看clustalo版本信息

$ clustalo --version

Clustalo运行示例

将以下内容保存为globin.fa

>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
 QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
 KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
 VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
 FLFLIKHNPTNTIVYFGRYWSP

>NP_689511.2 nuclear autoantigenic sperm protein isoform 3 [Homo sapiens]
MAMESTATAAVAAELVSADKIEDVPAPSTSADKVESLDVDSEAKKLLGLGQKHLVMGDIPAAVNAFQEAAS
LLGKKYGETANECGEAFFFYGKSLLELARMENGVLGNALEGVHVEEEEGEKTEDESLVENNDNIDETEGSE
EDDKENDKTEEMPNDSVLENKSLQENEEEEIGNLELAWDMLDLAKIIFKRQETKEAQLYAAQAHLKLGEVS
VESENYYOAVEEFQSCLNLQEQYLEAHDRLLAETHYQLGLAYGYNSQYDEAVAQFSKSIEVIENRMAVLNE
QVKEAEGSSAEYKKEIEELKELLPEIREKIEDAKESQRSGNVAELALKATLVESSTSGFTPGGGGSSVSMI
ASRKPTDGASSSNCVTDISHLVRKKRKPEEESPRKDDAKKAKQEPEVNGGSGDAVPSGNEVSENMEEEAEN
QAESRAAVEGTVEAGATVESTAC

module调用clustalo

$ module load clustalo/1.2.4-intel-2021.4.0

Clustal-Omega读取序列文件globin.fa,对齐序列,并将结果以fasta/a2m格式打印到屏幕上。

$ clustalo -i globin.fa

运行结果

>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
-------------------QIKDLLVSSS-------TDLD--------------------
-------TTLV------------LVNAIYFKGM------------WKTAF----------
--------------------------NAEDTREMPFHVTKQESKPVQMMCMNNSFNVATL
PAEKMKILELPFASGDLSMLVLLPDEVSDL-------------------------ERIEK
TINFE-----------------------K-------LTEWTNPNT---------------
---------MEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKI
SQAVHGAFMELSEDGIEMAGS------------------TGVIEDIKH------SPESEQ
FRADHPFLFLIKHNPT-----NTIVYFGRYWSP---------------------------
----
>NP_689511.2 nuclear autoantigenic sperm protein isoform 3 [Homo sapiens]
MAMESTATAAVAAELVSADKIEDVPAPSTSADKVESLDVDSEAKKLLGLGQKHLVMGDIP
AAVNAFQEAASLLGKKYGETANECGEAFFFYGKSLLELARMENGVLGNALEGVHVEEEEG
EKTEDESLVENNDNIDETEGSEEDDKENDKTEEMPND----------SVLENKSL--QEN
EEEEIGNLELAWDMLDLAKIIFKRQETKEAQLYAAQAHLKLGEVSVESENYYOAVEEFQS
CLNLQEQYLEAHDRLLAETHYQLGLAYGYNSQYDEAVAQFSKSIEVIENRMAVLNEQVKE
AEGSSAEYKKEIEELKELLPEIREKIEDAKE--SQ---------RSGNVA----------
ELALKATLVESSTSGFTPGGGGSSVSMIASRKPTDGASSSNCVTDISHLVRKKRKPEEES
PRKDDAKK--AKQEPEVNGGSGDAVPSGNEVSENMEEEAENQAESRAAVEGTVEAGATVE
STAC

参考资料


最后更新: 2024 年 11 月 22 日