import scrapy
import re
class XimaSpider(scrapy.Spider):
name = 'xima'
allowed_domains = ['ximalaya.com']
start_urls = ['https://www.ximalaya.com/jiankang/']
def parse(self, response):
li_list = response.xpath("//div[@class='content']//li")
for li in li_list:
item = {}
item['img'] = li.xpath(".//img/@src").extract_first()
我運行后,顯示
'img': 'https://s1.xmcdn.com/yx/ximalaya-web-static/last/dist/images/default-album_4489712.jpg'
但其實在F2下,顯示的 地址是
//imagev2.xmcdn.com/group58/M0A/A4/62/wKgLc10-qtyTQ304AAGqsnIRKY072.jpeg!strip=1&quality=7&magick=webp&op_type=5&upload_type=cover&name=web_large&device_type=ios
https:可以自己加上,成全地址。
這是二個完全不同的地址。
uj5u.com熱心網友回復:
前面的地址應該是預設地址,用于加載失敗和未加載完成時候使用的通用圖片uj5u.com熱心網友回復:
應該就是通用地址,因為下面 li 列標簽里,獲取到的全是這個地址,那如何解決獲以真正有效的地址呢?uj5u.com熱心網友回復:
你下載里面的js代碼看看是不是用json資料異步加載的,如果是了就模擬提交申請,那樣更加好爬,回傳的就是格式化資料直接獲取就行了
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/144821.html
