一、requests 模塊爬蟲基礎寫法
# 基礎爬蟲寫法.py
import requests
def spider(url):
# 定義一個函式,爬取網頁原始碼
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
# 定義個一個headers 里面放user-agnet,也可以放別的資訊, 字典格式key-values
# user-agent 會告訴網站服務器,訪問者是通過什么工具來請求的, 類似偽造身份,讓對端把自己當成瀏覽器
ret = requests.get(url , headers=headers)
# 請求一個地址,回傳回應
html = ret.content
# 得到網頁原始碼
# html = ret.content.decode('utf-8')
# 得到網頁原碼編碼格式為utf-8
return html
# 回傳網頁原始碼
if __name__ == '__main__':
url = "https://www.cnblogs.com/aaak/p/13968431.html"
# url 地址
html = spider(url).decode('utf-8')
# 呼叫 函式,并指定編碼格式
print(html)
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/224699.html
標籤:Python
