網頁抓取的新手。
我正在嘗試抓取一個網站。我最近學習了如何從表中獲取資訊,但我想知道如何獲取表名。(我相信這里的表名可能是錯誤的詞,但請耐心等待)
例如 - https://www.msc.com/che/about-us/our-fleet?page=1
MSC 是航運公司,我需要獲取他們的船隊串列和每艘船的資訊。我撰寫了以下代碼,它將檢索每艘船的表資料。
df <- MSCwp[i,1] %>%
read_html() %>% html_table()
MSCwp 是串列 url。此代碼為我提供了我需要的有關網頁中列出的船舶的所有資訊(期望它的名稱)。
有什么方法可以將名稱與表格一起檢索嗎?
例如 - 上述網站的 df 將回傳 10 個表。(對應網頁中的船舶)。df[1] 將有關于船 Agamemnon 的資訊,但我不確定如何檢索船名和表格。
uj5u.com熱心網友回復:
您需要從主頁中提取名稱。
library(rvest)
library(dplyr)
url <- "https://www.msc.com/che/about-us/our-fleet?page=1"
page <- read_html(url)
names <- page %>% html_elements("dd a") %>% html_text()
names
[1] "AGAMEMNON" "AGIOS DIMITRIOS" "ALABAMA" "ALLEGRO" "AMALTHEA" "AMERICA" "ANASTASIA"
[8] "ANTWERP TRADER" "ARCHIMIDIS" "ARIES"
在這種情況下,我正在尋找“dd”節點的“a”子節點中的文本。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/448281.html
