2019年8月23日 星期五

NCBI submission--上傳基因序列備忘

NCBI submission -- 上傳基因序列備忘
[NCBI系統一直在更新,這是2019 summer的紀錄]

1. 先到Submission Portal的新網頁,導覽比較清楚: https://submit.ncbi.nlm.nih.gov/onboarding/
我是以Google帳號進入,缺點是他會一直默認Gmail是你的primary email,每次的修改只要一重新登入就復原
Sequin將逐漸停用:"NCBI is phasing out support of the Sequin submission tool. Please submit your data using BankIt, Submission Portal or tbl2asn."所以直接都線上操作即可,不須要下載Sequin操作。

2. 16s, 5.8S-its2-28S: 會導引到GenBank / Submit ribosomal RNA (rRNA), rRNA-ITS, Influenza or Norovirus sequences.
   coi等:會導引到 BankIt / Submit nucleotide sequences from any organism, including mRNA, genomic DNA, organelle, ncRNA, plasmids, other viruses, phages and synthetic constructs.

3. 都只要準備fasta檔即可,說明裡說要準備 modifier檔與feature annotation檔都不必(例外見以下第5-6點),而Fasta檔最低資訊的格式如下:
>seqID  [organism=...] [isolate=...]
例如:
>IGSD11884e [organism=Aegista mackensii] [isolate=IGSD11884e]
TATATAATTTTTGGGGTATGATGTGGA....
>BJ2451 [organism=Acusta ravida] [isolate=BJ2451]
TACATACTGTTTGGTGTGTGGTGTGGT.....

[注意]
(1) seqID就用isolate,以我的樣本編碼系統而言這樣比較清楚,不必改成seq1, seq2, ....
(2) modifier只要包括 [organism=...] [isolate=...]即可,不需要另外準備modifier檔案,除非真的很想提供更多資訊給GenBank使用者,我是沒那麼熱心,有興趣請閱讀並引用我的著作。
(3) modifier [organism=...] [isolate=....]之間要空格
(4) [isolate=....]的後面不要再加入任何optional descriptive title,例如"mitochondrial COI gene for cytochrome oxidase subunit 1, partial cds",反正每個負責的人會把它改成他個人喜歡的樣子,乾脆空白留給他去做。
(5) 記得把原來align之後產生的gap符號刪掉,比較單純。
(6) 其他格式的疑問見https://www.ncbi.nlm.nih.gov/books/NBK53702/,以及其他官網,但是注意不同時期的官網似乎有些說法不一致,例如modifier [organism=...] [isolate=....]之間空不空格

4. 系統會自己去找5.8S-its2-28S各基因的起始終結位置,不需要自己做feature annotation檔案

5. 唯一要先準備的feature是COI等有 protein product 的translation frame (1, 2 or 3)。
   只有一個gene時,feature的設定選擇藉由填入form設定。
   E.C. number不填入也無所謂。

6. 使用BankIt中如果包括多基因或是intron,例如Histone3-spacer-Histone4,則要準備feature table比較方便

7. 操作過程每個系統都會逐步給建議,隨時可以停止登出,每一次只要有按下"continue"按鈕,系統就會儲存,下次進來選擇繼續未完成的submission即可由最後畫面繼續編輯。

8. 送出後如果有問題系統負責人會 email聯絡,主要遇過的是學名不在他們的系統中,軟體動物看來是有參考World Register of Marine Species (WoRMS),可能情況有:
(1)該學名沒建檔,你可以提供相關文獻給他們。如果是你尚未發表的新種,一開始Fasta檔裡就填入[organism=Aegista sp. n.]或是[organism=Aegista sp.],然後把isolate定義清楚讓自己知道哪個新種是那一條序列
(2)可能是你學名拼錯了:承認拼錯請他們修正,不必重新上傳。
(3)系統的學名跟你的使用不同,可能你錯或是系統錯,或是有更複雜的分類學問題。如果明顯是系統錯,你可以提供最新的相關文獻給他們。如果怕麻煩,就接受系統目前現有的學名拼法、亞種位階或是屬級分類,請他們修正我的資料,說等發表分類訂正後再通知他們修改,不過看GenBank上的資料就知道大多數人都不回頭修改的,這只是客套話。

2019年8月20日 星期二

PartitionFinder

1. 到 http://www.robertlanfear.com/partitionfinder/ 下載,解壓縮到想要的目錄
2. 先準備2個檔案放在同一個目錄,例如以下的例子是3gene目錄:
 (1)DNA 序列檔: PHYLIP 格式,例如以下的例子是 3gene.phy
 (2)partition檔:檔名一定是partition_finder.cfg,內容如下依樣修改,設定的細節參考手冊,#裡面的說明留著備忘:

# ALIGNMENT FILE #
alignment = 3gene.phy;
# BRANCHLENGTHS #
branchlengths = linked;
# MODELS OF EVOLUTION #
models = mrbayes;
model_selection = bic;
# DATA BLOCKS #
[data_blocks]
16S = 1-313;
COI_pos1 = 314-918\3;
COI_pos2 = 315-918\3;
COI_pos3 = 316-918\3;
ITS2 = 919-1455;
# SCHEMES #
[schemes]
search = greedy;

3. 到terminal,直接key in:  python,然後檔案把解壓縮PartitionFinder的目錄裡面的PartitionFinder.py檔以滑鼠拖到terminal,再把準備的2個檔案的目錄以滑鼠拖進terminal,2個中間會自動空一格,看起來類似像這樣:
Ubuntu18:$ python '/media/linghu/data1T/程式/partitionfinder-2.1.1/PartitionFinder.py' '/media/linghu/data1T/systematics/DNA/partitionfinder/3gene'

4. enter執行即可
5. 結果會在2個檔案的目錄產生一個log.txt以及一個analysis目錄,直接看analysis目錄裡面的best_scheme.txt檔即可,裡面也提供 MrBayes的語法,以及其它程式的建議。

心得:
1. 其實有些人認為不需要分那麼細,GTR已經包括了所有的狀況,讓程式的參數來改變即可,現代的電腦運算速度也都夠快。
2. 有些人認為model不要設I,例如RAxml的作者。我的數據常常只要加 I就會得到奇怪的結果。
3. 在BEAST中設定 model參數可以加快達到穩定的時間,PartitionFinder沒有細部設定,所以不如直接用jmodeltest,每個基因執行一次也花不了多少時間。