import bs4
import requests
import re
import xlwt
import datetime
date = datetime.datetime.now().strftime('%Y-%m-%d') # 給檔案打上時間戳,便于資料更新
url = 'https://www.aliexpress.com/wholesale' # 網址
payload = {'SearchText': 'nike', 'page': '1', 'ie': 'utf8', 'g': 'y'} # 字典傳遞url引數
# 初始化資料容器
title = []
payload['page'] = 2 # 此處為頁碼,根據網頁引數具體設定
resp = requests.get(url, params=payload)
print(resp.url) # 列印訪問的網址
resp.encoding = 'utf-8' # 設定編碼
soup = bs4.BeautifulSoup(resp.text, "html.parser")
#print(resp.text)
print(soup.prettify())
# 標題
all_title = soup.find_all('a',class_=re.compile("item-title"))
print(all_title)
print("title",all_title)
for j in all_title:
soup_title = bs4.BeautifulSoup(str(j), "html.parser")
print(soup_title)
title.append(soup_title.a['title'])
單獨把resp.text當做HTML檔案傳入BeautifulSoup中可以爬到內容,但是使用網頁的形式爬到的內容為空即[],請教下大佬這是為什么
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/274915.html
標籤:其他開發語言
