2018年4月11日 星期三

RAxML

( 202007修訂)

我的系統是Ubuntu14.04/18.04
一、安裝
1.Github抓的最新版本,依照manual compile安裝幾個*.gcc後無法執行,登出、重啟都無法執行,出現未安裝raxmlHPC訊息。

2.只好在軟體中心安裝:但是Ubuntu14.04只有v7.8.2,Ubuntu16.04版才有最新版本

[安裝之後出現過一次當機,自動登出,登入之後沒有側欄工具列-->到tty1重新啟動 $ sudo reboot,ok]

3.舊版因為功能有限,所以還是想裝8版,嘗試terminal下 $sudo apt-get update 以及$sudo apt-get install raxml 也沒辦法更新

3.原來這裡就有debian版本:https://ubuntu.pkgs.org/16.04/ubuntu-universe-amd64/raxml_8.2.4-1_amd64.deb.html ,下載最新版本(也有i386版本),雙擊/安裝更新

二、操作
先準備好1. fasta或是phylip檔、2. partition.txt、constraint 樹
partition.txt範例:
DNAX,coi=1-611
DNAX,its2=612-1012

在Terminal中fasta或是phylip檔的目錄下執行,有2種常用的方式:
(一)一次做完所有需要的基本分析,包括:最佳ML樹、fast bootstrap、把bootstrap套上最佳ML樹(含分支長度)

raxmlHPC -s seq.fas -n ml.txt -m GTRGAMMAI -q partition.txt -p 14756 -f a -x 12685 -# autoMRE  -o Chr_IDX15684a,Lah_YNYC16459,Pbc_YNMH10505,Ppv_LCSP6262a,Ftm_ZJHLY5031a,Tvn_PGK7256a

輸出:
Best-scoring ML tree written to: /RAxML_bestTree.ml.txt [只有分支長度]
Best-scoring ML tree with support values written to: /RAxML_bipartitions.ml.txt  [FigTree可以直接讀,這是我們一般需要的樹]
Best-scoring ML tree with support values as branch labels written to: /RAxML_bipartitionsBranchLabels.ml.txt  [FigTree不能讀]

註:-b  -x  不能並用,-x randomNumberSeed (rapid) or -b randomNumberSeed (standard)。 -f a指令之下,也沒辦法用 -b 代替 -x (RAxML-ng 的 --all  指令是只有 standard bootstrap)
註: "rapid Bootstrap analysis and search for best­scoring ML tree in one program run ",還沒搞清楚跟下面指令有何不同,"If you don't specify ­f at all RAxML will execute the standard hill climbing algorithm "
註:-T : 多核運算數目
註:fast bootstrap的速度比較快,個人經驗與standard bootstrap比較,分支支持度互有高低,但是大致是相似的。數據大的時候可以用fast bootstrap,但是如果只是一般的定序親緣分析,最好用standard bootstrap,因為審稿人有時候很難伺候,很個人主觀經驗硬要你遵守。
Stamataki et al. 2008 A Rapid Bootstrap Algorithm for the RAxML Web Servers. Systematic Biology, 57: 758–771: "The standard BS (SBS) and rapid BS (RBS) values drawn on the best-scoring ML tree are highly correlated and show almost identical average support values. ...RBS inferences are between 8 and 20 times faster (average 14.73) than SBS analyses"

(二)分開做,逐步做最佳ML樹、standard bootstrap、把bootstrap套上最佳ML樹(含分支長度)
1.最佳ML樹(含分支長度,沒有bootstrap)
raxmlHPC -s 4gene.phy -n ml.txt -m GTRGAMMAI -q partition.txt -g constraint.tre -p 28426 -o Chr_IDX15684,Tvn_PGK7256a

==>輸出: RAxML_bestTree.ml.txt  [另外一個檔案RAxML_result.ml.txt 在這指令下是一樣的]

2.先bootstrap
raxmlHPC -s 4gene.phy -n ml2.txt -m GTRGAMMAi -q partition.txt -g constraint.tre -p 28426 -o Chr_IDX15684,Tvn_PGK7256a -b 28496 -# autoMRE 
註:作者不建議使用GTRGAMMAI,但是大家還是在用,而且raxml-ng還開放了22個model]
註:-n ml2.txt 任務檔名要換
==>輸出:RAxML_bootstrap.ml2.txt  [內含多個樹] 

或是用-m GTRCAT
raxmlHPC -s 4gene.phy -n ml2.txt -m GTRCAT -q partition.txt -b 45287 -p 28426 -# autoMRE -o Chr_IDX15684,Tvn_PGK7256a

­-m GTRCATI[X]:
GTR + Optimization of substitution rates + Optimization of site­specific evolutionary rates which are categorized into numberOfCategories distinct rate categories for greater computational efficiency. Final tree might be evaluated under GTRGAMMAI, depending on the tree search option.
With the optional "X" appendix you can specify a ML estimate of base frequencies.

­-m GTRCAT[X]: Final tree might be evaluated under GTRGAMMA,

3.把bootstrap套上最佳ML樹(含分支長度) 
raxmlHPC -f b -t RAxML_bestTree.ml.txt -z RAxML_bootstrap.ml2.txt -m GTRCAT -n ml3.tre 
==>輸出:RAxML_bipartitions.ml3.tre  [FigTree直接讀的格式]、RAxML_bipartitionsBranchLabels.ml3.tre [bootstrap值在方括弧中,FigTree無法直接讀]

(三)另外可以單獨用的有用指令:
(1)consensus tree
raxmlHPC -J MRE -z RAxML_bootstrap.ml.txt -m GTRCAT -n consensus.tre
 -m : 一定要加,但是沒有作用。
類似-J的指令是 -L
-n : name of output file
-z : Specify the file name of a file containing multiple trees

輸出的樹bootstrap值在方括弧中,刪除  ]  與  :1.0[   ,到FigTree可以讀



注意:
1.因為Phylp格式允許序列名稱>10字元(relaxed phylip format),但是序列名稱之後要有至少1空格隔開名稱與序列,否則會顯示序列名稱太長。PGDSpider2轉格式序列名稱只有10字元,而且沒有空格隔開名稱與序列。建議使用AliView作編輯和轉序列格式。

2. Raxml v.8之後Fasta格式直接可讀,所以優先採用Fasta格式。其實是Raxml自己多了一個轉檔功能,目錄下會出現一個*.reduced的PHYLP格式檔。

3.raxml語法 dash -之後不能有空格,例如- s會錯誤訊息。

4. 分析輸出的tree是Newick格式,但是要用Archaeoptery Forester才能讀。如果習慣用FigTree顯示的話,可以在文字編輯器中將長度 :1.0和 bootstrap值的左右方括弧 [ 和] 尋找取代刪除掉。

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。