各位老師好,
我做跨境電商,想通過 python 獲得一個排名榜單的所有商品的代碼(ASIN),請原諒我是 python 小白,已經有初步代碼見文末,但是問題有:
1,其實 urls 的格式是規律的(其實只有兩處變化的地方:pg_1, pg=1),怎么增加一個遍歷陳述句,而不要在 urls 里寫兩條鏈接
2,這兩頁經常只能抓取到1頁或者1頁都抓不到,報錯為 set()
3,抓取到的資料我想匯出到一個 csv 檔案中
csv 表格的 a1 單元格為“ASIN”
a2到a101 單元格分別為抓取到的 ASIN
非常感謝老師愿意幫助
import requests
import re
urls = [
'https://www.amazon.com/gp/movers-and-shakers/automotive/ref=zg_bsms_pg_1?ie=UTF8&pg=1',
'https://www.amazon.com/gp/movers-and-shakers/automotive/ref=zg_bsms_pg_2?ie=UTF8&pg=2'
]
for url in urls:
content = requests.get(url).content
decoded_content = content.decode()
asins = set(re.findall(r'/[^/]+/dp/([^"?]+)', decoded_content))
print(asins)
uj5u.com熱心網友回復:

好歹你也欺騙一下游覽器,帶個你本地電腦的資訊,亞馬遜有反扒機制啊
uj5u.com熱心網友回復:
謝謝回復轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/113788.html
下一篇:Procast呼叫外部函式
