2019年8月23日 星期五

NCBI submission--上傳基因序列備忘

NCBI submission -- 上傳基因序列備忘
[NCBI系統一直在更新,這是2019 summer的紀錄]

1. 先到Submission Portal的新網頁,導覽比較清楚: https://submit.ncbi.nlm.nih.gov/onboarding/
我是以Google帳號進入,缺點是他會一直默認Gmail是你的primary email,每次的修改只要一重新登入就復原
Sequin將逐漸停用:"NCBI is phasing out support of the Sequin submission tool. Please submit your data using BankIt, Submission Portal or tbl2asn."所以直接都線上操作即可,不須要下載Sequin操作。

2. 16s, 5.8S-its2-28S: 會導引到GenBank / Submit ribosomal RNA (rRNA), rRNA-ITS, Influenza or Norovirus sequences.
   coi等:會導引到 BankIt / Submit nucleotide sequences from any organism, including mRNA, genomic DNA, organelle, ncRNA, plasmids, other viruses, phages and synthetic constructs.

3. 都只要準備fasta檔即可,說明裡說要準備 modifier檔與feature annotation檔都不必(例外見以下第5-6點),而Fasta檔最低資訊的格式如下:
>seqID  [organism=...] [isolate=...]
例如:
>IGSD11884e [organism=Aegista mackensii] [isolate=IGSD11884e]
TATATAATTTTTGGGGTATGATGTGGA....
>BJ2451 [organism=Acusta ravida] [isolate=BJ2451]
TACATACTGTTTGGTGTGTGGTGTGGT.....

[注意]
(1) seqID就用isolate,以我的樣本編碼系統而言這樣比較清楚,不必改成seq1, seq2, ....
(2) modifier只要包括 [organism=...] [isolate=...]即可,不需要另外準備modifier檔案,除非真的很想提供更多資訊給GenBank使用者,我是沒那麼熱心,有興趣請閱讀並引用我的著作。
(3) modifier [organism=...] [isolate=....]之間要空格
(4) [isolate=....]的後面不要再加入任何optional descriptive title,例如"mitochondrial COI gene for cytochrome oxidase subunit 1, partial cds",反正每個負責的人會把它改成他個人喜歡的樣子,乾脆空白留給他去做。
(5) 記得把原來align之後產生的gap符號刪掉,比較單純。
(6) 其他格式的疑問見https://www.ncbi.nlm.nih.gov/books/NBK53702/,以及其他官網,但是注意不同時期的官網似乎有些說法不一致,例如modifier [organism=...] [isolate=....]之間空不空格

4. 系統會自己去找5.8S-its2-28S各基因的起始終結位置,不需要自己做feature annotation檔案

5. 唯一要先準備的feature是COI等有 protein product 的translation frame (1, 2 or 3)。
   只有一個gene時,feature的設定選擇藉由填入form設定。
   E.C. number不填入也無所謂。

6. 使用BankIt中如果包括多基因或是intron,例如Histone3-spacer-Histone4,則要準備feature table比較方便

7. 操作過程每個系統都會逐步給建議,隨時可以停止登出,每一次只要有按下"continue"按鈕,系統就會儲存,下次進來選擇繼續未完成的submission即可由最後畫面繼續編輯。

8. 送出後如果有問題系統負責人會 email聯絡,主要遇過的是學名不在他們的系統中,軟體動物看來是有參考World Register of Marine Species (WoRMS),可能情況有:
(1)該學名沒建檔,你可以提供相關文獻給他們。如果是你尚未發表的新種,一開始Fasta檔裡就填入[organism=Aegista sp. n.]或是[organism=Aegista sp.],然後把isolate定義清楚讓自己知道哪個新種是那一條序列
(2)可能是你學名拼錯了:承認拼錯請他們修正,不必重新上傳。
(3)系統的學名跟你的使用不同,可能你錯或是系統錯,或是有更複雜的分類學問題。如果明顯是系統錯,你可以提供最新的相關文獻給他們。如果怕麻煩,就接受系統目前現有的學名拼法、亞種位階或是屬級分類,請他們修正我的資料,說等發表分類訂正後再通知他們修改,不過看GenBank上的資料就知道大多數人都不回頭修改的,這只是客套話。

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。