我正在從以下網站https://indiainvestmentgrid.gov.in/opportunities/nip-project/606803抓取不同的專案。此網頁上有一個進度條,顯示專案階段(概念化 - 已完成)。你有什么建議我怎么能刮這個?
我正在使用 RSelenium,提取頁面源并按以下方式查看它:
remDr$navigate('https://indiainvestmentgrid.gov.in/opportunities/nip-project/606803')
url <- read_html(remDr$getPageSource()[[1]])
project_title <- url %>%
html_nodes(".prj-name") %>%
html_text()
但是,我不確定如何抓取此進度條。Selector Gadget 顯示完成的圓圈/條形標記為“.active-stage”,但我在我的 HTML 代碼中找不到它。在這個專案的情況下,它應該被刮為“正在實施”。
uj5u.com熱心網友回復:
似乎您同時使用RSelenium和rvest。此外,介意已html_nodes被棄用。條形的著色(我認為)由 projectStageID 定義。以下內容應該適用于大多數這些頁面。
library(rvest)
library(magrittr
url <- "https://indiainvestmentgrid.gov.in/opportunities/nip-project/606801"
out <- read_html(url)
out %>%
html_elements(css = "#projectStageId") %>%
as.character %>%
substr(start = 49, stop = nchar(.)-2) %>%
switch(
"500020" = "Under Conceptualization",
"600037" = "Under Development",
"500021" = "Under Implementation",
"500023" = "Completed",
NA
)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/321007.html
