當我們已經有別人的paper,想要取得原始數據重新分析,通常可以整理出2個檔案
1.paper的整理資料表:是以species+location+haplotype整理出來的,讀入haplotype.csv,包括
species, location, haplotype, number
2. GenBank下載整理的各個haplotype的sequence,假設haplotype名稱已經提供,讀入sequence.csv,包括
haplotype, sequence
2個資料框有一個共同欄位:haplotype
To do:
1. 合併讀入haplotype與 sequence 2個資料框
>eiff<- merge(haplotype,sequence,by="haplotype", all=T) #加入all=T 確認2個資料框彼此有無缺少資料,若有會出現 <NA>
> head(eiff) #看一下數據頭
species locality haplotype number sequence
1 E SAX E01 21 AACTTTATATTTAATTTTCGGAGCCTGAGCCGG(略)
2 E XL E01 14(略)
3 E SLX E02 7(略)
4 E XT E02 29(略)
5 E BLW E03 13(略)
6 E <NA> E03 3(略)
如果還有族群的GPS檔(含locality, lat, long),處理方法一樣,共同欄位是locality。
2.要轉回原始數據,即一列一隻單一個體
>eiff_rep<- eiff[rep(seq(nrow(eiff)), number), ]
R可以辨識的獨特編號(不是paper中的標本編號),species, location, haplotype, number(還是原來的複數), sequence
> head(eiff_rep) #看一下數據頭如下
species locality haplotype number sequence
1 E SAX E01 21 AACTTTATATTTAATTTTCGGAGCCTGAG
1.1 E SAX E01 21 (略)
1.2 E SAX E01 21 (略)
1.3 E SAX E01 21 (略)
1.4 E SAX E01 21 (略)
1.5 E SAX E01 21 (略)
>write.csv() #匯出eiff1再做編輯,先以熟悉的工具檢查數據正確性。
沒有留言:
張貼留言
注意:只有此網誌的成員可以留言。