我已經從R 中的這個串列中抓取了資料,但是它不包括我應用的網站過濾器(List = Oxford 3000 和 CEFR level = A1),并且據我所知沒有變數可以用來過濾R中的資料。
還有其他方法可以獲取我想要的資料嗎?URL 似乎沒有隨著過濾而改變。
這是我的代碼:
url <- "https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000"
url %>%
map(. %>%
read_html() %>%
html_nodes(".belong-to , .pos , a") %>%
html_text()
) %>%
unlist() -> ox3ka1
uj5u.com熱心網友回復:
要僅選擇帶有過濾器的單詞,a1我們可以執行以下操作,
df = 'https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000' %>% read_html() %>% html_nodes('.top-g') %>% html_nodes( "li[data-ox5000 = 'a1']") %>% html_text()
head(df)
[1] " a indefinite articlea1 " " about adverba1 " " about prepositiona1 " " above adverba1 "
[5] " above prepositiona1 " " across adverba1 "
進一步參考, 如何使用 html_nodes 在 R 中選擇具有“attribute = x”的節點?
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/449242.html
