示例:從該
我有:
- 選擇了標題
- 右鍵單擊并在開發人員工具中檢查它
- 復制了 Xpath
這是我的代碼:
url <- "https://www.aiche.org/academy/conferences/synthetic-biology-engineering-evolution-design-seed/2021/proceeding/session/poster-presenters-accepted"
xpath <- "/html/body/div[1]/div[5]/section/div[2]/div/div[2]/div/div[3]/div/div/article/div/div/div[2]/div[2]/div[1]/div[1]/div[2]/span/a"
url %>%
read_html() %>%
html_element(xpath = xpath) %>%
html_text()
問題:為什么我不總是提取第一個標題?

uj5u.com熱心網友回復:
簡單的答案是您正在評估的頁面的回應正文在請求之間發生變化。當我將該 URL 加載到瀏覽器中并多次強制重新加載頁面(Command Shift R對于 Mac 上的 Chrome,Control F5對于 Windows)時,會顯示不同版本的頁面。
第一的:

第二:

更長的答案是,由于站點快取配置錯誤、負載平衡配置錯誤或兩者的組合,頁面的這兩種變體似乎正在回傳。
我通過查看幾個請求的回應標頭得出了這個結論。該Via頭的值varnish。Varnish是一個 HTTP 快取反向代理。我還注意到頁面的兩個版本的X-Cache標題值都是HIT和 ,但是X-Cache-Hits和Content-Length值有所不同。開箱即用,當 Varnish 將X-Cache標頭設定為 時HIT,這意味著它正在從記憶體中回傳一個快取副本。該X-Cache-Hits頭基本上是針對一個特定的快取頁面已經被回傳的次數的計數器。
如果不執行可能被站點所有者視為濫用的快取破壞請求,您就無法解決快取問題。
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/341158.html
