決議長字串以檢索channel

我從 Telegram 中提取了大量資料。但是，我無法隔離 channel_id。現在我有一個很長的字串，其中有很多其他資訊包含 channel_id。問題是如何洗掉除 channel_id 之外的所有內容，即“channel_id=XXXXXXXXXX”之后的數字？

我的 data.frame 的子集

df <- structure(list(channel_id = c("MessageFwdHeader(date=datetime.datetime(2021, 5, 13, 20, 50, 47, tzinfo=datetime.timezone.utc), imported=False, from_id=PeerChannel(channel_id=1292436059), from_name=None, channel_post=1404, post_author=None, saved_from_peer=None, saved_from_msg_id=None, psa_type=None)", 
                                      "MessageFwdHeader(date=datetime.datetime(2021, 5, 4, 9, 24, 16, tzinfo=datetime.timezone.utc), imported=False, from_id=PeerChannel(channel_id=1480423705), from_name=None, channel_post=224, post_author=None, saved_from_peer=None, saved_from_msg_id=None, psa_type=None)", 
                                      "MessageFwdHeader(date=datetime.datetime(2021, 3, 25, 14, 9, 38, tzinfo=datetime.timezone.utc), imported=False, from_id=PeerChannel(channel_id=1489900933), from_name=None, channel_post=627, post_author=None, saved_from_peer=None, saved_from_msg_id=None, psa_type=None)", 
                                      "MessageFwdHeader(date=datetime.datetime(2021, 3, 12, 22, 10, 3, tzinfo=datetime.timezone.utc), imported=False, from_id=PeerChannel(channel_id=1455689590), from_name=None, channel_post=1457, post_author=None, saved_from_peer=None, saved_from_msg_id=None, psa_type=None)", 
                                      "MessageFwdHeader(date=datetime.datetime(2021, 3, 9, 12, 52, 5, tzinfo=datetime.timezone.utc), imported=False, from_id=PeerChannel(channel_id=1348575245), from_name=None, channel_post=None, post_author=None, saved_from_peer=None, saved_from_msg_id=None, psa_type=None)"
)), row.names = c(NA, -5L), class = c("data.table", "data.frame"))

想要的結果

channel_id <- structure(list(channel_id = c("1292436059", 
                                            "1480423705", 
                                            "1489900933", 
                                            "1455689590", 
                                            "1348575245"
)), row.names = c(NA, -5L), class = c("data.table", "data.frame"))

uj5u.com熱心網友回復：

您可以嘗試regexpr查看(channel_id=using (?<=\\(channel_id=)，而不是匹配數字，\\d 然后查看)using(?=\\))并使用提取匹配項regmatches。

regmatches(df$channel_id, regexpr("(?<=\\(channel_id=)\\d (?=\\))"
          , df$channel_id, perl=TRUE))
#[1] "1292436059" "1480423705" "1489900933" "1455689590" "1348575245"

或結合兩個sub。

sub(").*", "", sub(".*\\(channel_id=", "", df$channel_id))
#[1] "1292436059" "1480423705" "1489900933" "1455689590" "1348575245

uj5u.com熱心網友回復：

我們可能會使用 str_extract

library(stringr)
library(dplyr)
df %>%
    transmute(channel_id = str_extract(channel_id, "(?<=channel_id\\=)\\d "))
   channel_id
1: 1292436059
2: 1480423705
3: 1489900933
4: 1455689590
5: 1348575245

轉載請註明出處，本文鏈接：https://www.uj5u.com/qiye/314416.html

標籤：r 细绳解析

上一篇：條件JSON決議和附加

下一篇：如何從python中的字串決議XML

決議長字串以檢索channel_id