如何從兩個資料表中洗掉重疊序列？-有解無憂

我有兩個 data.tables 提供跨不同染色體（類別）的序列坐標。例如：

library(data.table)
dt1 <- data.table(chromosome = c("1", "1", "1", "1", "X"),
                  start = c(1, 50, 110, 150, 110),
                  end = c(11, 100, 121, 200, 200))
dt2 <- data.table(chromosome = c("1", "1", "X"),
                  start = c(12, 60, 50),
                  end = c(20, 115, 80))

我需要創建第三個 data.table，它為包含 dt1 中所有整數的序列提供坐標，這些整數不與 dt2 中序列的任何整數重疊。例如：

dt3 <- data.table(chromosome = c("1", "1", "1", "1", "X"),
                  start = c(1, 50, 116, 150, 110),
                  end = c(11, 59, 121, 200, 200))

我需要運行它的 data.tables 非常大，因此我需要最大限度地提高性能。我曾嘗試使用 foverlaps() 函式，但無濟于事。任何幫助將不勝感激！

uj5u.com熱心網友回復：

你可以從這樣的事情開始 foverlaps

setkey(dt2,chromosome,start,end)
ds = foverlaps(dt1,dt2,  type="any")
ds[,.(chromosome, 
      start = fcase(is.na(start) | i.start <= start,i.start,
                    i.end >= end, end   1),
      end = fcase(is.na(end) | i.end >= end, i.end,
                  i.start <= start, start - 1)
      )]
#   chromosome start   end
#       <char> <num> <num>
#1:          1     1    11
#2:          1    50    59
#3:          1   116   121
#4:          1   150   200
#5:          X   110   200

uj5u.com熱心網友回復：

為了完整起見，有一個使用GenomicRangesBioconductor 軟體包的簡潔解決方案：

library(GenomicRanges)
setdiff(makeGRangesFromDataFrame(dt1), makeGRangesFromDataFrame(dt2))

GRanges object with 5 ranges and 0 metadata columns:
      seqnames    ranges strand
         <Rle> <IRanges>  <Rle>
  [1]        1      1-11      *
  [2]        1     50-59      *
  [3]        1   116-121      *
  [4]        1   150-200      *
  [5]        X   110-200      *
  -------
  seqinfo: 2 sequences from an unspecified genome; no seqlengths

如果要求結果是類data.table：

library(data.table) # development version 1.14.3 used
library(GenomicRanges)
setdiff(makeGRangesFromDataFrame(dt1), makeGRangesFromDataFrame(dt2)) |> 
  as.data.table() |>
  DT(, .(chromosome = seqnames, start, end))

   chromosome start   end
       <fctr> <int> <int>
1:          1     1    11
2:          1    50    59
3:          1   116   121
4:          1   150   200
5:          X   110   200

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/394325.html

標籤：r 表现数据表基因组范围

上一篇：繪圖熱圖的緩慢瀏覽器渲染

下一篇：性能：在迭代時根據選項更改資料