本人是爬蟲小萌新,有很多元素動態爬取的鏈接不知道在哪里可以找到。
比如以下網址:
url = http://sa.sogou.com/new-weball/page/sgs/epidemic
我想爬取各省市及對應確診和治愈的數量
一開始不知道這是動態的資料,直接用requests.get的方法爬取到的div標簽只有<div id="async"></div>。。
才知道這應該是動態加載的資料,可是我又無論如何找不到資料的源鏈接在哪。。。
console,Network-XHR,JS,都找過了,沒找到
#使用selenium倒是可以簡單的爬取到~但是感覺太大材小用了。。。
from selenium import webdriver
import time
driver = webdriver.Firefox(executable_path =r'F:\Application\geckodriver.exe')
url = 'http://sa.sogou.com/new-weball/page/sgs/epidemic?'
driver.get(url)
print('waiting for loading 4s ...')
time.sleep(4)
data_list = driver.find_elements_by_css_selector('div.data-box')
province_confirm_list = []
for data in data_list:
province = data.find_elements_by_tag_name('span')[0].text
cure_qty = data.find_elements_by_tag_name('span')[1].text
province_confirm_list.append([province,cure_qty])
還請大神告知小弟:
如何分辨資料是動態加載出來的?
如果是動態加載出來的,又如何找到對應的動態請求url
uj5u.com熱心網友回復:
右鍵查看網頁源代碼uj5u.com熱心網友回復:
對的,直接在源代碼中查找,如果找不到就表示是動態加載的,
查找對應的url,可以使用開發者工具,在network中的XHR中查找就好了
uj5u.com熱心網友回復:
源代碼是找的到資料的,但是資料封裝在windows--initial..的一個字典里了,目前還不知道怎么弄出來??
XHR中找不到資訊
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/98056.html
上一篇:python報錯求幫助
