我正在研究 R,我想將我的專欄刪減為只有第 3 和第 4 個逗號之間的文本。
Col1<- c("Sample1")
Col2 <- c("1A00318:268:H27G3DSX3:4:1101:20989:1047KJ758397.1.1794_U;tax=k:Eukaryota,d:Stramenopiles,p:Ochrophyta,c:Bacillariophyta,o:Bacillariophyta_X,f:Raphid-pennate,g:Raphid-pennate_X")
df <- data.frame(Col1, Col2)
Col1 | Col2 |
---|---|
樣品1 | 1A00318:268:H27G3DSX3:4:1101:20989:1047KJ758397.1.1794_U;tax=k:Eukaryota,d:Strenopiles,p:Ochrophyta,c:Bacillariophyta,f:Raphid-pennate,g:Raphid-pennate_X |
有了這張桌子,我想擁有:
Col1 | Col2 |
---|---|
樣品1 | 芽孢桿菌門 |
我的資料集真的很大,有人知道我該怎么做嗎?
uj5u.com熱心網友回復:
您可以使用 sapply 通過 strsplit 命令提取第 4 個元素。
df$Col3 <- sapply(df$Col2, function(x)unlist(strsplit(x, ","))[4])
df
# Col1
#1 Sample1
#Col2
#1 #1A00318:268:H27G3DSX3:4:1101:20989:1047KJ758397.1.1794_U;tax=k:Eukaryota,d:Stramenopiles,p:Ochrophyta,c:Bacillariophyta,o:Bacillariophyta_X,f:Raphid-pennate,g:Raphid-pennate_X
# Col3
#1 c:Bacillariophyta
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/497346.html