Python爬蟲實戰，requests+xlwt模塊，爬取螺螄粉商品資料（附原始碼）-有解無憂

前言

今天給大家介紹的是Python爬取螺螄粉商品資料，在這里給需要的小伙伴們代碼，并且給出一點小心得，

首先是爬取之前應該盡可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本資料爬取的人會很多，所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對螺螄粉資料進行爬取，

在每次進行爬蟲代碼的撰寫之前，我們的第一步也是最重要的一步就是分析我們的網頁，

通過分析我們發現在爬取程序中速度比較慢，所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度，

螺螄粉

開發工具

Python版本： 3.6

相關模塊：

requests模塊

json模塊

re模塊

time模塊

xlwt模塊

xlrd模塊

環境搭建

安裝Python并添加到環境變數，pip安裝需要的相關模塊即可，

思路分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具，查看我們想要的螺螄粉商品資料在哪里
這里我們需要頁面資料就可以了

源代碼

代碼實作

headers = {
    #'Host':'s.taobao.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'cookie':'你的Cookie',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'upgrade-insecure-requests': '1',
    'referer':'https://www.taobao.com/',
}

#請求網頁內容
url="https://s.taobao.com/search?q=螺螄粉&ie=utf8&bcoffset=0&ntoffset=0&s=0"

#requests+請求頭headers
r = requests.get(url, headers=headers)
r.encoding = 'utf8'
s = (r.content)

#亂碼問題
html = s.decode('utf8')

# 初始化execl表
def initexcel():

    # 創建一個workbook 設定編碼
    workbook = xlwt.Workbook(encoding='utf-8')
    # 創建一個worksheet
    worksheet = workbook.add_sheet('sheet1')
    workbook.save('螺螄粉.xls')
    ##寫入表頭
    value1 = [["標題", "銷售地", "銷售量", "評論數", "銷售價格", '商品惟一ID', '圖片URL']]
    book_name_xls = '螺螄粉.xls'
    write_excel_xls_append(book_name_xls, value1)

# 正則模式
p_title = '"raw_title":"(.*?)"'       #標題
p_location = '"item_loc":"(.*?)"'    #銷售地
p_sale = '"view_sales":"(.*?)人付款"' #銷售量
p_comment = '"comment_count":"(.*?)"'#評論數
p_price = '"view_price":"(.*?)"'     #銷售價格
p_nid = '"nid":"(.*?)"'              #商品惟一ID
p_img = '"pic_url":"(.*?)"'          #圖片URL

# 資料集合
data = https://www.cnblogs.com/guzichuan/p/[]

# 正則決議
title = re.findall(p_title,html)
location = re.findall(p_location,html)
sale = re.findall(p_sale,html)
comment = re.findall(p_comment,html)
price = re.findall(p_price,html)
nid = re.findall(p_nid,html)
img = re.findall(p_img,html)
for j in range(len(title)):
    data.append([title[j],location[j],sale[j],comment[j],price[j],nid[j],img[j]])

# 寫入execl
def write_excel_xls_append(path, value):
    index = len(value)  # 獲取需要寫入資料的行數
    workbook = xlrd.open_workbook(path)  # 打開作業簿
    sheets = workbook.sheet_names()  # 獲取作業簿中的所有表格
    worksheet = workbook.sheet_by_name(sheets[0])  # 獲取作業簿中所有表格中的的第一個表格
    rows_old = worksheet.nrows  # 獲取表格中已存在的資料的行數
    new_workbook = copy(workbook)  # 將xlrd物件拷貝轉化為xlwt物件
    new_worksheet = new_workbook.get_sheet(0)  # 獲取轉化后作業簿中的第一個表格
    for i in range(0, index):
        for j in range(0, len(value[i])):
            new_worksheet.write(i+rows_old, j, value[i][j])  # 追加寫入資料，注意是從i+rows_old行開始寫入
    new_workbook.save(path)  # 保存作業簿

#保存資料
book_name_xls ='螺螄粉.xls'
write_excel_xls_append(book_name_xls, data)
time.sleep(6)

如何獲取Cookie

結果展示

最后

今天的分享到這里就結束了，感興趣的朋友也可以去試試哈

對文章有問題的，或者有其他關于python的問題，可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話，可以關注一下我，或者給文章點贊(/≧▽≦)/

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/539727.html

標籤：Python

上一篇：新款 c++ web framework 支持orm http/2

下一篇：網路編程與通信原理