2025年11月17日 星期一

由論文中復原原始數據--population genetics

當我們已經有別人的paper,想要取得原始數據重新分析,通常可以整理出2個檔案

1.paper的整理資料表:是以species+location+haplotype整理出來的,讀入haplotype.csv,包括

species, location, haplotype, number

2. GenBank下載整理的各個haplotype的sequence,假設haplotype名稱已經提供,讀入sequence.csv,包括

haplotype, sequence

2個資料框有一個共同欄位:haplotype


To do:

1. 合併讀入haplotype與 sequence 2個資料框

>eiff<- merge(haplotype,sequence,by="haplotype", all=T)   #加入all=T 確認2個資料框彼此有無缺少資料,若有會出現 <NA>

> head(eiff)    #看一下數據頭

  species locality haplotype number sequence

1       E      SAX       E01     21 AACTTTATATTTAATTTTCGGAGCCTGAGCCGG(略)

2       E       XL       E01     14(略)

3       E      SLX       E02      7(略)

4       E       XT       E02     29(略)

5       E      BLW       E03     13(略)

6       E     <NA>       E03      3(略)

如果還有族群的GPS檔(含locality, lat, long),處理方法一樣,共同欄位是locality。      

2.要轉回原始數據,即一列一隻單一個體

>eiff_rep<- eiff[rep(seq(nrow(eiff)), number), ]

R可以辨識的獨特編號(不是paper中的標本編號),species, location, haplotype, number(還是原來的複數), sequence

> head(eiff_rep)    #看一下數據頭如下 

    species locality haplotype number sequence

1         E      SAX       E01     21 AACTTTATATTTAATTTTCGGAGCCTGAG

1.1       E      SAX       E01     21 (略)

1.2       E      SAX       E01     21 (略)

1.3       E      SAX       E01     21 (略)

1.4       E      SAX       E01     21 (略)

1.5       E      SAX       E01     21 (略)

>write.csv()    #匯出eiff1再做編輯,先以熟悉的工具檢查數據正確性。



 

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。