兄弟姐妹們!又到了化身曹賊的時間!沖鴨!

今天咱們把這個網站上的小姐姐小哥哥都給爬下來,當然你學會了去爬啥那就都隨便了~
環境模塊
用到的環境是Python3.6和pycharm
需要安裝兩個模塊,requests和re模塊,還會用到一個pprint模塊,這個是內置的,不用安裝,咱們直接呼叫就可以了,
代碼部分
大概的意思都寫在注釋了,就不一一解釋了,讓我們直接用代碼說話,反正寫的太詳細了,你們也不看看,就喜歡代碼…
但是考慮到有些小伙伴可能零基礎,所以安排一波視頻教程給你們吧!

import requests # 模擬發送請求 # pip install requests
import pprint # 格式化輸出模塊 內置模塊
import re # 正則運算式模塊 專門用于字串 匹配, 替換, 分割
def change_title(title):
new_title = re.sub('[\\\/\:\*\?\"\<\>\|]', '_', title)
return new_title
for page in range(6, 11):
try:
#列印的時候顯示爬多少頁
print(f'=======================正在抓取第{page}頁資料=========================')
# 1. 找資料對應的url連接地址
if page == 1:
url = 'https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page=1&pagesize=30'
else:
url = f'https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page={page}&pagesize=25'
# user-agent 瀏覽器的身份標識
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}
# 2. 發送地址請求(包含了各種各樣的資料) ua 偽裝 遇到請求不到資料的時候可以考慮偽裝
response = requests.get(url=url, headers=headers)
# json資料: 資料回傳的一種形式
json_data = response.json()
# pprint.pprint(json_data)
# 3. 資料決議 字典: 資料容器
data_list = json_data['content']['list']
# print(data_list)
# 資料型別 流程控制 資料容器 ...
for data in data_list:
title = data['title'] # 視頻的標題 # mp4 avi rmvb flv awn...
playurl = data['playurl'] # 視頻地址
# print(title, playurl)
# 請求視頻資料 視頻資料 圖片 音頻 都屬于二進制資料
video_data = requests.get(url=playurl, headers=headers).content
new_title = change_title(title)
# 4. 資料的保存
with open('video\\' + new_title + '.mp4', mode='wb') as f:
f.write(video_data)
print('保存完成:', new_title)
except:
continue
爬取結果
注意,這里沒寫自動創建檔案,所以要自己先創建一個video檔案和代碼放到一起,不然沒有結果的,
視頻教程:
Python:批量爬取小哥哥小姐姐精品短視頻,看的不亦樂乎!
不會安裝模塊的看這篇:如何安裝python模塊, python模塊安裝失敗的原因以及解決辦法
兄弟們,你的三連就是我的動力,能讓我動力加滿嗎!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/342227.html
標籤:python
