主頁 > 後端開發 > Python 基礎教程 —— 網路爬蟲入門篇

Python 基礎教程 —— 網路爬蟲入門篇

2021-04-30 07:22:19 後端開發

前言 

Python 是一種解釋型、面向物件、動態資料型別的高級程式設計語言,它由 Guido van Rossum 于 1989 年底發明,第一個公開發行版發行于 1991 年,
自面世以后,Python 深受廣大開發者的喜迎,在網站開發,網路爬蟲,資料分析,機器學習,人工智能等領域都有其過人之處,
在“Python基礎教程“中,本人將會從各個不同領域介紹Python的用法,今天就先從最常用的網路爬蟲開始說起,
網路爬蟲主要目的是通過定期收集網路的資訊,把資訊保存后進行分析歸類,最后通過報表顯示給相關的用戶作為業務參考,幾年我也曾經做過一個專案是對稅務局的政府網站進行資訊收集,把收集到的稅務政策,各行業的稅率變動,國家頒布的新行稅法進行分析,把分析結果綜合到財稅管理平臺進行財務核算,
為了簡化流程,這次就以常用的天氣網為例子(http://www.weather.com.cn/),定時收集地區的天氣情況,最后把資料作為圖表顯示,

 

目錄

一、頁面下載

二、資料讀取

三、資料保存

四、使用 matplotlib 顯示資料

五、定時器

 

一、頁面下載

這里用到了 urllib 庫里面的 request 類,它有兩個常用的方法:

1.  urlretrieve 用于下載網頁

1 def urlretrieve(url: str,
2       filename: Optional[str] = ...,
3       reporthook: Optional[(int, int, int) -> None] = ...,
4       data: Optional[bytes] = ...)

引數說明

url:網頁地址 url
filename:指定了保存到本地的路徑(如果未指定該引數,urllib會生成一個臨時檔案來保存資料);
reporthook:是一個回呼函式,當連接上服務器、以及相應的資料塊傳輸完畢的時候會觸發該回呼,我們可以利用這個回呼函式來顯示當前的下載進度,
data:指post到服務器的資料,該方法回傳一個包含兩個元素的元組(filename, headers),filename表示保存到本地的路徑,header表示服務器的回應頭,

 

2. urlopen 可以像打開檔案一樣直接打開遠程頁面,區別在于 urlopen是只讀模式

1 def urlopen(url: Union[str, Request],
2             data: Optional[bytes] = ...,
3             timeout: Optional[float] = ...,
4             *,
5             cafile: Optional[str] = ...,
6             capath: Optional[str] = ...,
7             cadefault: bool = ...,
8             context: Optional[SSLContext] = ...)

 引數說明

 url :目標資源在網路中的位置,可以是一個表示URL的字串,也可以是一個urllib.request物件,詳細介紹請跳轉

data:data用來指明發往服務器請求中的額外的引數資訊(如:在線翻譯,在線答題等提交的內容),data默認是None,此時以GET方式發送請求;當用戶給出data引數的時候,改為POST方式發送請求,

timeout:設定網站的訪問超時時間

cafile、capath、cadefault:用于實作可信任的CA證書的HTTP請求,(基本上很少用)

context引數:實作SSL加密傳輸,

 

 1 class Weather():
 2 
 3     def __init__(self):
 4         #確定下載路徑,以日期作為檔案名
 5         self.path='E:/Python_Projects/Test/weather/'
 6         self.filename=str(datetime.date.today()).replace('-','')
 7 
 8     def getPage(self,url):
 9         #下載頁面并保存
10         file=self.path+self.filename+'.html'
11         urlretrieve(url,file,None,None)

 運行方法后可以看到在檔案夾里已經保存了整個靜態頁面

回到目錄

 

二、資料讀取

因為每個html頁面的資料均有不同,我們可以觀察html代碼的特征,通過 re 的功能找到所需要的資料,
這里介紹幾個 re 常用的方法

1、re.compile(pattern,flags = 0 )

將正則運算式模式編譯為正則運算式物件,可使用match(),search()以及下面所述的其他方法將其用于匹配

2、re.search(pattern,string,flags = 0 )

掃描字串以查找正則運算式模式產生匹配項的第一個位置 ,然后回傳相應的match物件,None如果字串中沒有位置與模式匹配,則回傳;否則回傳false,請注意,這與在字串中的某個點找到零長度匹配不同,

3、re.match(pattern,string,flags = 0 )

如果字串開頭的零個或多個字符與正則運算式模式匹配,則回傳相應的匹配物件,None如果字串與模式不匹配,則回傳;否則回傳false,請注意,這與零長度匹配不同,

4、re.fullmatch(pattern,string,flags = 0 )

如果整個字串與正則運算式模式匹配,則回傳相應的match物件,None如果字串與模式不匹配,則回傳;否則回傳false,請注意,這與零長度匹配不同,

5、re.split(pattern,string,maxsplit = 0,flags = 0 )

通過出現模式來拆分字串,如果在pattern中使用了捕獲括號,那么模式中所有組的文本也將作為結果串列的一部分回傳,如果maxsplit不為零,則最多會發生maxsplit分割,并將字串的其余部分作為串列的最后一個元素回傳,

6、re.findall(pattern,string,flags = 0 )

以string串列形式回傳string中pattern的所有非重疊匹配項,從左到右掃描該字串,并以找到的順序回傳匹配項,如果該模式中存在一個或多個組,則回傳一個組串列;否則,回傳一個串列,如果模式包含多個組,則這將是一個元組串列,空匹配項包含在結果中,

7、re.finditer(pattern,string,flags = 0 )

回傳一個迭代器,該迭代器在string型別的RE 模式的所有非重疊匹配中產生匹配物件, 從左到右掃描該字串,并以找到的順序回傳匹配項,空匹配項包含在結果中,

 

本例子比較簡單,可以看到在地區白天/夜晚的氣溫都包含在  <p ><span>30</span><em>°C</em></p>,可以直接通過 re.compile() 找到資料,

然而在不同的頁面里,資料可能是通過后臺系結,或者在頁面渲染時系結,這時候就需要細心地找尋資料來源,再通過鏈接獲取,

 1     def readPage(self):
 2         #讀取頁面
 3         file=open(self.path+self.filename+'.html','r',1024,'utf8')
 4         data=https://www.cnblogs.com/leslies2/archive/2021/04/29/file.readlines()
 5         #找出當天白天溫度與晚上溫度
 6         pat=re.compile('<span>[0-9][0-9]</span>')
 7         data=https://www.cnblogs.com/leslies2/archive/2021/04/29/re.findall(pat,str(data))
 8         file.close()
 9         #篩選溫度值,回傳list
10         list1 = []
11         for weather in data:
12             w1 = weather.replace('<span>', '')
13             w2 = w1.replace('</span>', '')
14             list1.append(w2) 
15         return list1

最后回傳 list 陣列,其中包含當天的日間氣溫與夜間氣溫

回到目錄

 

三、資料保存

把當天日期、日間氣溫、夜間氣溫保存到資料庫

 1     def save(self,list1):
 2         #保存到資料庫
 3         db = MySQLdb.connect("localhost", "root", "********", "database", charset='utf8')
 4         cursor = db.cursor()
 5         sql = 'INSERT INTO weather(date,daytime,night) VALUES ('+self.filename+','+list1[0]+','+list1[1]+')'
 6         try:
 7             cursor.execute(sql)
 8             db.commit()
 9         except:
10             # 發生錯誤時回滾
11             db.rollback()
12         # 關閉資料庫連接
13         db.close()

 回到目錄

 

四、使用 matplotlib 顯示資料

在資料庫積累多天資料后,通過 matplotlib 庫顯示資料

 1 def display():
 2     # X軸旋轉90度
 3     plt.xticks(rotation=90)
 4     # 從資料庫中獲取資料
 5     db = MySQLdb.connect("localhost", "root", "********", "database", charset='utf8')
 6     cursor = db.cursor()
 7     sql = 'SELECT date,daytime,night FROM weather'
 8     try:
 9         cursor.execute(sql)
10         data=https://www.cnblogs.com/leslies2/archive/2021/04/29/np.array(cursor.fetchall())
11         db.commit()
12     except:
13         # 發生錯誤時回滾
14         db.rollback()
15     #資料轉換成日期陣列,白天溫度陣列,夜間溫度陣列
16     if len(data)!=0:
17         date=data[:,0]
18         # y軸資料需要轉化為int形式,否則將按字串形式排列
19         daytime=(np.int16(data[:,1]))
20         night=(np.int16(data[:,2]))
21         plt.xlabel('Date')
22         plt.ylabel('Temperature')
23         plt.title('Weather')
24         # 顯示資料
25         plt.plot(date,daytime,label='day')
26         plt.plot(date,night,label='night')
27         plt.legend()
28         plt.show()

顯示結果

回到目錄

 

五、定時器

使用 Timer 定時器每天執行一次,下載資料,再重繪畫面

 1 def start():
 2     weather=Weather()
 3     weather.getPage(url)
 4     data=https://www.cnblogs.com/leslies2/archive/2021/04/29/weather.readPage()
 5     weather.save(data)
 6     display()
 7     t = threading.Timer(86400, start)
 8     t.start()
 9 
10 url='http://www.weather.com.cn/weather1d/101280101.shtml'
11 if __name__ == '__main__':
12     start()

回到目錄

全部源代碼

 1 from urllib.request import urlretrieve,urlopen
 2 from matplotlib import pyplot as plt
 3 
 4 import numpy as np,threading,re,datetime,MySQLdb
 5 
 6 class Weather():
 7 
 8     def __init__(self):
 9         #確定下載路徑,以日期作為檔案名
10         self.path='E:/Python_Projects/Test/weather/'
11         self.filename=str(datetime.date.today()).replace('-','')
12 
13     def getPage(self,url):
14         #下載頁面并保存
15         file=self.path+self.filename+'.html'
16         urlretrieve(url,file,None,None)
17 
18     def readPage(self):
19         #讀取頁面
20         file=open(self.path+self.filename+'.html','r',1024,'utf8')
21         data=https://www.cnblogs.com/leslies2/archive/2021/04/29/file.readlines()
22         #找出當天白天溫度與晚上溫度
23         pat=re.compile('<span>[0-9][0-9]</span>')
24         data=https://www.cnblogs.com/leslies2/archive/2021/04/29/re.findall(pat,str(data))
25         file.close()
26         #篩選溫度值,回傳list
27         list1 = []
28         for weather in data:
29             w1 = weather.replace('<span>', '')
30             w2 = w1.replace('</span>', '')
31             list1.append(w2)  # 保存資料
32         return list1
33 
34     def save(self,list1):
35         #保存到資料庫
36         db = MySQLdb.connect("localhost", "root", "********", "database", charset='utf8')
37         cursor = db.cursor()
38         sql = 'INSERT INTO weather(date,daytime,night) VALUES ('+self.filename+','+list1[0]+','+list1[1]+')'
39         try:
40             cursor.execute(sql)
41             db.commit()
42         except:
43             # 發生錯誤時回滾
44             db.rollback()
45         # 關閉資料庫連接
46         db.close()
47 
48 def display():
49     # X軸旋轉90度
50     plt.xticks(rotation=90)
51     # 從資料庫中獲取資料
52     db = MySQLdb.connect("localhost", "root", "********", "database", charset='utf8')
53     cursor = db.cursor()
54     sql = 'SELECT date,daytime,night FROM weather'
55     try:
56         cursor.execute(sql)
57         data=https://www.cnblogs.com/leslies2/archive/2021/04/29/np.array(cursor.fetchall())
58         db.commit()
59     except:
60         # 發生錯誤時回滾
61         db.rollback()
62     #資料轉換成日期陣列,白天溫度陣列,夜間溫度陣列
63     if len(data)!=0:
64         date=data[:,0]
65         # y軸資料需要轉化為int形式,否則將按字串形式排列
66         daytime=(np.int16(data[:,1]))
67         night=(np.int16(data[:,2]))
68         plt.xlabel('Date')
69         plt.ylabel('Temperature')
70         plt.title('Weather')
71         # 顯示資料
72         plt.plot(date,daytime,label='day')
73         plt.plot(date,night,label='night')
74         plt.legend()
75         plt.show()
76 
77 def start():
78     weather=Weather()
79     weather.getPage(url)
80     data=https://www.cnblogs.com/leslies2/archive/2021/04/29/weather.readPage()
81     weather.save(data)
82     display()
83     t = threading.Timer(86400, start)
84     t.start()
85 
86 url='http://www.weather.com.cn/weather1d/101280101.shtml'
87 if __name__ == '__main__':
88     start()
View Code

 

總結

這個例子只是從最簡單的角度介紹爬蟲的使用方式,對應實際的應用場景只是冰山一角,在現實中經常還會遇到IP地址被封,資料系結無法直接獲取,資料加密等諸多問題,在后面再作詳細介紹,
由于時間緊迫,文章中有所缺漏的地方敬請點評,

對 JAVA 開發有興趣的朋友歡迎加入QQ群:174850571 共同探討!
對 .NET  開發有興趣的朋友歡迎加入QQ群:230564952 共同探討 !

 

作者:風塵浪子

https://www.cnblogs.com/leslies2/p/14719516.html

原創作品,轉載時請注明作者及出處

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/281574.html

標籤:其他

上一篇:Java 基礎 一文搞懂泛型

下一篇:【C】EM卡韋根32/24格式卡號轉換的實作

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more