我正在嘗試從網站獲取網路資料,我只需要從 tbody 類中獲取內部 html 資料并將其轉換為 json 以便更好地控制以及稍后將資料保存到檔案中。我只能通過使用來自 selenium 的 find_element(By.XPATH) 來讀取每個元素。有什么方法可以讀取整個內部 html tbody 內容然后將其決議為 json?請求將不起作用,因為它位于 iframe 內。
該網站和TBODY與標題滾動表:“靜省hình荻CA努爾卡”,我只想表減去稱號,并表如果可能的標題。
讀取元素的代碼:
browser=webdriver.Firefox()
browser.get("https://covid19.gov.vn/")
time.sleep(3)
browser.switch_to.frame(browser.find_element(By.XPATH,'/html/body/div[1]/div[2]/div[3]/div/iframe'))
value=browser.find_element(By.XPATH,'/html/body/div[2]/div[1]/div/div[2]/div[1]/span[4]')
print(value.text)
編輯:已解決,感謝@QHarr
uj5u.com熱心網友回復:
只需呼叫頁面執行的回傳 JSON 的相同端點。
import requests
import pandas as pd
r = requests.get('https://static.pipezero.com/covid/data.json').json()
location_json = r['locations']
df = pd.DataFrame(location_json)
print(df)
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/392381.html
標籤:Python 网页抓取 内嵌框架 html-tbody
