此頁面上的表格需要每天刮擦。我們正在努力使抓取盡可能簡單(穩健),這樣我們服務器上運行的代碼就不會出現問題。想避開 Selenium:
import requests
import pandas as pd
page_list = pd.read_html('https://www.ncaa.com/rankings/basketball-women/d1/ncaa-womens-basketball-net-rankings')
page_df = pd.DataFrame(page_list)
# won't convert to df (ValueError: Must pass 2-d input. shape=(1, 356, 9)
r = requests.get('https://www.ncaa.com/rankings/basketball-women/d1/ncaa-womens-basketball-net-rankings')
# not sure what to do with response
page_list很接近,但它是一個 3 維串列。我們如何才能將其放入二維串列或 pandas 資料框中?
uj5u.com熱心網友回復:
pd.read_html不回傳資料幀,而是回傳資料幀串列。用于page_list[0]獲取第一個資料幀:
page_df = pd.DataFrame(page_list[0])
從檔案中:
將 HTML 表格讀入 DataFrame 物件串列。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/472473.html
