我有一個使用 pdftools::pdf_text 從 PDF 中提取的文本。PDF 包含要點專案,例如:
- project abstract
- project narrative
解壓后,文字如下:
? project abstract ? project narrative
現在,我想從文本塊中提取這些專案。我試過做這樣的事情:
grep("?\\s[a-zA-Z] \\s[a-zA-Z] ", text)
但它找不到它。拉串列項的正確正則運算式是什么?或者提取串列項的正確方法是什么?
uj5u.com熱心網友回復:
您可以使用str_split函式 fromstringr來識別每個不明確的 unicode 字符后的文本...
# install.packages("stringr")
library(stringr)
txt <- "? project abstract ? project narrative"
trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract" "project narrative"
您在示例中使用的 unicode 字符是 \uf0b7
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/388499.html
標籤:r
上一篇:在一組回圈中將細胞合并為一個
