我正在 r 中學習網路抓取,并理解 HTML 代碼..但這里有點混亂......
代碼 1:
url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url)
ten_most_populous <- ten_most_df %>%
html_table() %>%
.[[6]]
代碼 2:
url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url)
ten_most_populous <- ten_most_df %>%
html_nodes(xpath="/html/body/div[3]/div[3]/div[4]/div/table[5]") %>% html_table()
代碼 1 和 2 中使用的方法是否與代碼 1 中使用的方法相同,我們正在抓取 6 節點,但是我不清楚代碼 2,因為 div[3] 重復了兩次。你能否就此澄清一些。會有很大幫助..謝謝。
uj5u.com熱心網友回復:
body/div[3]/div[3]/div[4]表示body 元素的第 3個子元素的第 3個子元素的第 4div個子元素。divdiv
您確實應該通過閱讀有關 XPath 的參考書而不是通過詢問 StackOverflow 來發現這一點。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/377794.html
上一篇:scrapy停止抓取已解決的元素
下一篇:用變數搜索漂亮的湯html
