網頁抓取的新手。我正在嘗試從網站上抓取特定資料。
例如。https://www.vesselfinder.com/vessels/KOTA-CARUM-IMO-9494577-MMSI-563150100
我需要刮一下這艘船在 2020 年和 2021 年行駛的距離。
shipws <- read_html(shipsite)
上面的代碼讓我得到了這個網站。shipsite 是網址。
現在,我嘗試使用,
a <- shipws %>%
html_nodes( css = "_1hFrZ") %>%
html_attr()
但它回傳一個空。_1hFrZ 是網站中的 td 類。當我也使用 html_text() 時它回傳空。
a <- shipsite %>%
html() %>%
html_nodes(xpath='//*[@id="tbc1"]/div[1]/div[1]/table') %>%
html_table()
很少有教程要求我按照上述方式進行操作,并且出現了 html() 函式不存在的錯誤。如果我洗掉 html()
很想知道我哪里出錯了。謝謝你。
uj5u.com熱心網友回復:
我們可以通過以下方式從網站上獲取所有表格,
df = 'https://www.vesselfinder.com/vessels/KOTA-CARUM-IMO-9494577-MMSI-563150100' %>%
read_html() %>% html_table()
感興趣的表是,
df[[2]]
# A tibble: 4 x 2
X1 X2
<chr> <int>
1 Travelled distance (nm) 98985
2 Port Calls 54
3 Average / Max Speed (kn) NA
4 Min / Max Draught (m) NA
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/442000.html
