主頁 >  其他 > [Python從零到壹] 四.網路爬蟲之入門基礎及正則運算式抓取博客案例

[Python從零到壹] 四.網路爬蟲之入門基礎及正則運算式抓取博客案例

2020-10-02 11:49:43 其他

歡迎大家來到“Python從零到壹”,在這里我將分享約200篇Python系列文章,帶大家一起去學習和玩耍,看看Python這個有趣的世界,所有文章都將結合案例、代碼和作者的經驗講解,真心想把自己近十年的編程經驗分享給大家,希望對您有所幫助,文章中不足之處也請海涵,

Python系列整體框架包括基礎語法10篇、網路爬蟲30篇、可視化分析10篇、機器學習20篇、大資料分析20篇、影像識別30篇、人工智能40篇、Python安全20篇、其他技巧10篇,您的關注、點贊和轉發就是對秀璋最大的支持,知識無價人有情,希望我們都能在人生路上開心快樂、共同成長,

本文參考了作者CSDN的文章,鏈接如下:

  • https://blog.csdn.net/Eastmount
  • https://github.com/eastmountyxz/Python-zero2one

同時,作者新開的“娜璋AI安全之家”將專注于Python和安全技術,主要分享Web滲透、系統安全、人工智能、大資料分析、影像識別、惡意代碼檢測、CVE復現、威脅情報分析等文章,雖然作者是一名技術小白,但會保證每一篇文章都會很用心地撰寫,希望這些基礎性文章對你有所幫助,在Python和安全路上與大家一起進步,

文章目錄

  • 一.什么是網路爬蟲
  • 二.正則運算式
    • 1.re模塊
    • 2.complie方法
    • 3.match方法
    • 4.search方法
    • 5.group和groups方法
  • 三.Python網路資料爬取的常用模塊
    • 1.urllib模塊
    • 2.urlparse模塊
  • 四.正則運算式抓取網路資料的常見方法
    • 1.抓取標簽間的內容
    • 2.爬取標簽中的引數
    • 3.字串處理及替換
  • 五.個人博客爬取實體
    • 1.分析程序
    • 2.代碼實作
  • 六.總結



一.什么是網路爬蟲

隨著互聯網的迅速發展,萬維網成為大量資訊的載體,越來越多的網民可以通過互聯網獲取所需的資訊,同時如何有效地提取并利用這些資訊也成為了一個巨大的挑戰,搜索引擎(Search Engine)作為輔助人們檢索資訊的工具,它成為了用戶訪問萬維網的入口和工具,常見的搜索引擎比如Google、Yahoo、百度、搜狗等,但是,這些通用性搜索引擎也存在著一定的局限性,比如搜索引擎回傳的結果包含大量用戶不關心的網頁;再如它們是基于關鍵字檢索,缺乏語意理解,導致反饋的資訊不準確;通用的搜索引擎無法處理非結構性資料,圖片、音頻、視頻等復雜型別的資料,

為了解決上述問題,定向抓取相關網頁資源的網路爬蟲應運而生,下圖是Google搜索引擎的架構圖,它從萬維網中爬取相關資料,通過文本和連接分析,再進行打分排序,最后回傳相關的搜索結果至瀏覽器,同時,現在比較熱門的知識圖譜也是為了解決類似的問題而提出的,

在這里插入圖片描述

網路爬蟲又被稱為網頁蜘蛛或網路機器人,它是一種按照一定的規則,自動地抓取萬維網資訊的程式或者腳本,網路爬蟲根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的資訊,與通用爬蟲不同,定向爬蟲并不追求大的覆寫,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備資料資源,

網路爬蟲按照系統結構和實作技術,大致可以分為以下幾種型別:通用網路爬蟲(General Purpose Web Crawler)、聚焦網路爬蟲(Focused Web Crawler)、增量式網路爬蟲(Incremental Web Crawler)、深層網路爬蟲(Deep Web Crawler),實際的網路爬蟲系統通常是幾種爬蟲技術相結合實作的,

資料分析通常包括前期準備、資料爬取、資料預處理、資料分析、可視化繪圖及分析評估六個步驟,如下圖所示,其中資料爬取主要劃分為四個步驟:

  • 需求分析,首先需要分析網路資料爬取的需求,了解所爬取主題的網址、內容分布,所獲取語料的欄位、圖集等內容,
  • 技術選擇,網頁抓取技術可以通過Python、Java、C++、C#等不同編程語言實作,主要涉及的技術包括:Urllib庫、正則運算式、Selenium、BeautifulSoup、Scrapy等技術,
  • 網頁抓取,確定好爬取技術后,需要分析網頁的DOM樹結構,通過XPATH技術定位網頁所爬取內容的節點,再抓取資料;同時,部分網站涉及到頁面跳轉、登錄驗證等,
  • 存盤技術,資料存盤技術主要是存盤爬取的資料資訊,主要包括SQL資料庫、純文本格式、CSV\XLS檔案等,

作者希望大家能從基礎跟著我學習Python知識,最后能抓取你需要的資料集并進行深入的分析,一起加油吧!

在這里插入圖片描述


二.正則運算式

正則運算式是用于處理字串的強大工具,通常被用來檢索、替換那些符合某種規則的文本,這篇文章首先引入正則運算式的基本概念,然后講解其常用的方法,并結合Python網路資料爬取常用模塊和常見正則運算式的網站分析方法進行講解,最后使用正則運算式爬取了個人博客網站,

正則運算式(Regular Expression,簡稱Regex或RE)又稱為正規表示法或常規表示法,常常用來檢索、替換那些符合某個模式的文本,它首先設定好了一些特殊的字符及字符組合,通過組合的“規則字串”來對運算式進行過濾,從而獲取或匹配我們想要的特定內容,它非常靈活,其邏輯性和功能性也非常強,并能迅速地通過運算式從字串中找到所需資訊,但對于剛接觸的人來說,比較晦澀難懂,

由于正則運算式主要應用物件是文本,因此它在各種文本編輯器中都有應用,小到著名編輯器EditPlus,大到Microsoft Word、Visual Studio等大型編輯器,都可以使用正則運算式來處理文本內容,

1.re模塊

Python通過re模塊提供對正則運算式的支持,但在使用正則運算式之前需要匯入re模塊,才能呼叫該模塊的功能函式,

  • import re

其基本步驟是先將正則運算式的字串形式編譯為Pattern實體,然后使用Pattern實體處理文本并獲得一個匹配(match)實體,再使用match實體獲得所需資訊,常用的函式是findall,原型如下:

  • findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags])

該函式表示搜索字串string,以串列形式回傳全部能匹配的子串,其中引數re包括三個常見值,每個常見值括號內的內容是完整的寫法,

  • re.I(re.IGNORECASE):使匹配忽略大小寫
  • re.M(re.MULTILINE):允許多行匹配
  • re.S(re.DOTALL):匹配包括換行在內的所有字符

Pattern物件是一個編譯好的正則運算式,通過Pattern提供的一系列方法可以對文本進行匹配查找,Pattern不能直接實體化,必須使用re.compile()進行構造,


2.complie方法

re正則運算式模塊包括一些常用的操作函式,比如complie()函式,其原型如下:

  • compile(pattern[,flags] )

該函式根據包含正則運算式的字串創建模式物件,回傳一個pattern物件,引數flags是匹配模式,可以使用按位或“|”表示同時生效,也可以在正則運算式字串中指定,Pattern物件是不能直接實體化的,只能通過compile方法得到,

簡單舉個實體,使用正則運算式獲取字串中的數字內容,如下所示:

>>> import re
>>> string="A1.45,b5,6.45,8.82"
>>> regex = re.compile(r"\d+\.?\d*")
>>> print regex.findall(string)
['1.45', '5', '6.45', '8.82']
>>> 

3.match方法

match方法是從字串的pos下標處起開始匹配pattern,如果pattern結束時已經匹配,則回傳一個match物件;如果匹配程序中pattern無法匹配,或者匹配未結束就已到達endpos,則回傳None,該方法原型如下:

  • match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])
    引數string表示字串;pos表示下標,pos和endpos的默認值分別為0和len(string);引數flags用于編譯pattern時指定匹配模式,

4.search方法

search方法用于查找字串中可以匹配成功的子串,從字串的pos下標處嘗試匹配pattern,如果pattern結束時仍可匹配,則回傳一個match物件;若pattern結束時仍無法匹配,則將pos加1后重新嘗試匹配;直到pos=endpos時仍無法匹配則回傳None,函式原型如下:

  • search(string[, pos[, endpos]]) | re.search(pattern, string[, flags])
    引數string表示字串;pos表示下標,pos和endpos的默認值分別為0和len(string));引數flags用于編譯pattern時指定匹配模式,

5.group和groups方法

group([group1, …])方法用于獲得一個或多個分組截獲的字串,當它指定多個引數時將以元組形式回傳,沒有截獲字串的組回傳None,截獲了多次的組回傳最后一次截獲的子串,groups([default])方法以元組形式回傳全部分組截獲的字串,相當于多次呼叫group,其引數default表示沒有截獲字串的組以這個值替代,默認為None,


三.Python網路資料爬取的常用模塊

本小節介紹Python網路資料爬取的常用模塊或庫,主要包括urlparse模塊、urllib模塊、urllib2模塊和requests模塊,這些模塊中的函式都是基礎知識,但也非常重要,

1.urllib模塊

本書首先介紹Python網路資料爬取最簡單并且應用比較廣泛的第三方庫函式urllib,urllib是Python用于獲取URL(Uniform Resource Locators,統一資源定址器)的庫函式,可以用來抓取遠程資料并保存,甚至可以設定訊息頭(header)、代理、超時認證等,

urllib模塊提供的上層介面讓我們像讀取本地檔案一樣讀取www或ftp上的資料,它比C++、C#等其他編程語言使用起來更方便,其常用的方法如下:

  • urlopen
    urlopen(url, data=None, proxies=None)

該方法用于創建一個遠程URL的類檔案物件,然后像本地檔案一樣操作這個類檔案物件來獲取遠程資料,引數url表示遠程資料的路徑,一般是網址;引數data表示以post方式提交到url的資料;引數proxies用于設定代理,urlopen回傳一個類檔案物件,urlopen提供了如下表所示,

在這里插入圖片描述

注意,在Python中我們可以匯入相關擴展包,通過help函式查看相關的使用說明,如下圖所示,

在這里插入圖片描述

下面通過一個實體講述Urllib庫函式爬取百度官網的實體,

# -*- coding:utf-8 -*-
import urllib.request
import webbrowser as web  

url = "http://www.baidu.com"
content = urllib.request.urlopen(url)

print(content.info())     #頭資訊
print(content.geturl())   #請求url
print(content.getcode())  #http狀態碼

#保存網頁至本地并通過瀏覽器打開
open("baidu.html","wb").write(content.read())
web.open_new_tab("baidu.html")

該段呼叫呼叫urllib.urlopen(url)函式打開百度鏈接,并輸出訊息頭、url、http狀態碼等資訊,如下圖所示,

在這里插入圖片描述

代碼import webbrowser as web參考webbrowser第三方庫,然后可以使用類似于“module_name.method”呼叫對應的函式,open().write()表示在本地創建靜態的baidu.html檔案,并讀取已經打開的百度網頁內容,執行檔案寫操作,web.open_new_tab(“baidu.html”)表示通過瀏覽器打開已經下載的靜態網頁新標簽,其中下載并打開的百度官網靜態網頁“baidu.html”檔案如下圖所示,

在這里插入圖片描述

同樣可以使用web.open_new_tab(“http://www.baidu.com”)在瀏覽器中直接打開在線網頁,


  • urlretrieve
    urlretrieve(url, filename=None, reporthook=None, data=None)

urlretrieve方法是將遠程資料下載到本地,引數filename指定了保存到本地的路徑,如果省略該引數,urllib會自動生成一個臨時檔案來保存資料;引數reporthook是一個回呼函式,當連接上服務器,相應的資料塊傳輸完畢時會觸發該回呼,通常使用該回呼函式來顯示當前的下載進度;引數data指傳遞到服務器的資料,下面通過例子來演示將新浪首頁網頁抓取到本地,保存在“D:/sina.html”檔案中,同時顯示下載進度,

# -*- coding:utf-8 -*-
import urllib.request
   
# 函式功能:下載檔案至本地,并顯示進度
# a-已經下載的資料塊, b-資料塊的大小, c-遠程檔案的大小
def Download(a, b, c):
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print('%.2f' % per)
url = 'http://www.sina.com.cn'
local = 'd://sina.html'
urllib.request.urlretrieve(url, local, Download)

上面介紹了urllib模塊中常用的兩個方法,其中urlopen()用于打開網頁,urlretrieve()方法是將遠程資料下載到本地,主要用于爬取圖片,注意,Python2可以直接參考,而Python3需要通過urllib.request呼叫,

# -*- coding:utf-8 -*-
import urllib.request

url = 'https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png'
local = 'baidu.png'
urllib.request.urlretrieve(url, local)

抓取百度logo圖片如下圖所示:

在這里插入圖片描述


2.urlparse模塊

urlparse模塊主要是對url進行分析,其主要操作是拆分和合并url各個部件,它可以將url拆分為6個部分,并回傳元組,也可以把拆分后的部分再組成一個url,主要有函式有urljoin、urlsplit、urlunsplit、urlparse等,

  • urlparse
    urlparse.urlparse(urlstring[, scheme[, allow_fragments]])

該函式將urlstring值決議成6個部分,從urlstring中取得url,并回傳元組(scheme, netloc, path, params, query, fragment),該函式可以用來確定網路協議(HTTP、FTP等)、服務器地址、檔案路徑等,實體代碼如下所示,

# coding=utf-8
from urllib.parse import urlparse
url = urlparse('http://www.eastmount.com/index.asp?id=001')

print(url)          #url決議成六部分
print(url.netloc)   #輸出網址

輸出如下所示,包括scheme、netloc、path、params、query、fragment六部分內容,

>>> 
ParseResult(
	scheme='http', 
	netloc='www.eastmount.com', 
	path='/index.asp', 
	params='', 
	query='id=001', 
	fragment=''
)
www.eastmount.com
>>> 

同樣可以呼叫urlunparse()函式將一個元組內容構建成一條Url,函式如下:

  • urlunparse
    urlparse.urlunparse(parts)

該元組類似urlparse函式,它接收元組(scheme, netloc, path, params, query, fragment)后,會重新組成一個具有正確格式的url,以便供Python的其他HTML決議模塊使用,示例代碼如下:

# coding=utf-8
import urllib.parse
url = urllib.parse.urlparse('http://www.eastmount.com/index.asp?id=001')

print(url)           #url決議成六部分
print(url.netloc)    #輸出網址

#重組URL
u = urllib.parse.urlunparse(url)
print(u)

輸出如下圖所示,

在這里插入圖片描述


四.正則運算式抓取網路資料的常見方法

接著介紹常用的正則運算式抓取網路資料的一些技巧,這些技巧都是來自于作者自然語言處理和資料抓取的專案經驗,可能不是很系統,但也希望能給讀者提供一些抓取資料的思路,從而更好地解決一些實際問題,

1.抓取標簽間的內容

HTML語言是采用標簽對的形式來撰寫網站的,包括起始標簽和結束標簽,比如< head></ head>、< tr></ tr>、< script>< script>等,下面講解抓取標簽對之間的文本內容,比如抓取< title>Python</ title>標簽對之間的“Python”內容,

(1) 抓取title標簽間的內容

'<title>(.*?)</title>'

首先我們可以采用該正則運算式來抓取起始標簽< title >和結束標簽< /title >之間的內容,“(.*?)”就代表著我們需要抓取的內容,下面這段代碼是爬取百度官網的標題,即“百度一下,你就知道”,

# coding=utf-8  
import re  
import urllib.request
url = "http://www.baidu.com/"  
content = urllib.request.urlopen(url).read()
title = re.findall(r'<title>(.*?)</title>', content.decode('utf-8'))
print(title[0])
# 百度一下,你就知道

代碼呼叫urllib庫的urlopen()函式打開超鏈接,并呼叫正則運算式re庫中的findall()函式尋找title標簽間的內容,由于findall()函式是獲取所有滿足該正則運算式的文本,這里只需要輸出第一個值title[0]即可,注意,Python3需要轉換utf8編碼,否則會報錯,

下面講解另一種方法,用來獲取標題起始標簽(< title>)和結束標簽(</ title>)之間的內容,同樣輸出百度官網標題“百度一下,你就知道”,

# coding=utf-8  
import re  
import urllib.request

url = "http://www.baidu.com/"  
content = urllib.request.urlopen(url).read()
pat = r'(?<=<title>).*?(?=</title>)'    
ex = re.compile(pat, re.M|re.S)
obj = re.search(ex, content.decode('utf-8'))
title = obj.group()  
print(title)
# 百度一下,你就知道

2.抓取超鏈接標簽間的內容
在HTML中,< a href=url>超鏈接標題</ a>用于標識超鏈接,下面的代碼用于獲取完整的超鏈接,同時獲取超鏈接< a>和</ a>之間的標題內容,

# coding=utf-8  
import re  
import urllib.request
url = "http://www.baidu.com/"  
content = urllib.request.urlopen(url).read()

#獲取完整超鏈接
res = r"<a.*?href=.*?<\/a>"
urls = re.findall(res, content.decode('utf-8'))
for u in urls:
    print(u)

#獲取超鏈接<a>和</a>之間內容
res = r'<a .*?>(.*?)</a>'  
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)  
for t in texts:
    print(t)

輸出結果部分內容如下所示,這里如果采用“print(u)”或“print(t)”陳述句直接輸出結果,

在這里插入圖片描述


3.抓取tr標簽和td標簽間的內容
網頁常用的布局包括table布局或div布局,其中table表格布局中常見的標簽包括tr、th和td,表格行為tr(table row),表格資料為td(table data),表格表頭為th(table heading),那么如何抓取這些標簽間的內容呢?下面是獲取它們之間內容的代碼,假設存在HTML代碼如下所示:

<html>
<head><title>表格</title></head>
<body>
    <table  border=1>
        <tr><th>學號</th><th>姓名</th></tr>
        <tr><td>1001</td><td>楊秀璋</td></tr>
        <tr><td>1002</td><td>燕娜</td></tr>
    </table>
</body>
</html>

運行結果如下圖所示:

在這里插入圖片描述

正則運算式爬取tr、th、td標簽之間內容的Python代碼如下,

# coding=utf-8  
import re
import urllib.request
content = urllib.request.urlopen("test.html").read() #打開本地檔案

#獲取<tr></tr>間內容
res = r'<tr>(.*?)</tr>'
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)
for m in texts:
    print(m)

#獲取<th></th>間內容
for m in texts:
    res_th = r'<th>(.*?)</th>'
    m_th = re.findall(res_th, m, re.S|re.M)
    for t in m_th:
        print(t)

#直接獲取<td></td>間內容
res = r'<td>(.*?)</td><td>(.*?)</td>'    
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)
for m in texts:
    print(m[0],m[1])

輸出結果如下,首先獲取tr之間的內容,然后再在tr之間內容中獲取< th>和</ th>之間值,即“學號”、“姓名”,最后是獲取兩個< td>和</ td>之間的內容,注意,Python3決議本地檔案可能會出錯,掌握方法更重要,

在這里插入圖片描述

如果包含屬性值,則正則運算式修改為“< td id=.?>(.?)</ td>”,同樣,如果不一定是id屬性開頭,則可以使用正則運算式“<td .?>(.?)”,


2.爬取標簽中的引數

(1) 抓取超鏈接標簽的url
HTML超鏈接的基本格式為“< a href=url>鏈接內容</ a>”,現在需要獲取其中的url鏈接地址,方法如下:

# coding=utf-8  
import re

content = '''
<a href="http://news.baidu.com" name="tj_trnews" class="mnav">新聞</a>
<a href="http://www.hao123.com" name="tj_trhao123" class="mnav">hao123</a>
<a href="http://map.baidu.com" name="tj_trmap" class="mnav">地圖</a>
<a href="http://v.baidu.com" name="tj_trvideo" class="mnav">視頻</a>
'''

res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
urls = re.findall(res, content, re.I|re.S|re.M)
for url in urls:
    print(url)

輸出內容如下:

在這里插入圖片描述


2.抓取圖片超鏈接標簽的url
在HTML中,我們可以看到各式各樣的圖片,其圖片標簽的基本格式為“< img src=圖片地址 />”,只有通過抓取了這些圖片的原地址,才能下載對應的圖片至本地,那么究竟怎么獲取圖片標簽中的原圖地址呢?下面這段代碼就是獲取圖片鏈接地址的方法,

content = '''<img alt="Python" src="http://www.yangxiuzhang.com/eastmount.jpg" />'''
urls = re.findall('src="(.*?)"', content, re.I|re.S|re.M)
print urls
# ['http://www.yangxiuzhang.com/eastmount.jpg']

原圖地址為“http://…/eastmount.jpg”,它對應一張圖片,該圖片是存盤在“www.yangxiuzhang.com”網站服務器端的,最后一個“/”后面的欄位為圖片名稱,即為“eastmount.jpg”,那么如何獲取url中最后一個引數呢?


3.獲取url中最后一個引數
在使用Python爬取圖片程序中,通常會遇到圖片對應的url最后一個欄位用來命名圖片的情況,如前面的“eastmount.jpg”,需要通過決議url“/”后面的引數來獲取圖片,

content = '''<img alt="Python" src="http://www..csdn.net/eastmount.jpg" />'''
urls = 'http://www..csdn.net/eastmount.jpg'
name = urls.split('/')[-1]  
print name
# eastmount.jpg

該段代碼urls.split(’/’)[-1]表示采用字符“/”分割字串,并且獲取最后一個所獲取的值,即為圖片名稱“eastmount.jpg”,


3.字串處理及替換

在使用正則運算式爬取網頁文本時,通常需要呼叫find()函式找到指定的位置,再進行進一步爬取,比如獲取class屬性為“infobox”的表格table,再進行定位爬取,

start = content.find(r'<table class="infobox"')  #起點位置    
end = content.find(r'</table>')                  #終點位置
infobox = text[start:end]    
print infobox

同時,爬取程序中可能會爬取到無關變數,此時需要對無關內容進行過濾,這里推薦使用replace函式和正則運算式進行處理,比如爬取內容如下所示:

 # coding=utf-8  
import re

content = '''
<tr><td>1001</td><td>楊秀璋<br /></td></tr>
<tr><td>1002</td><td>燕&nbsp;娜</td></tr>
<tr><td>1003</td><td><B>Python</B></td></tr>
'''

res = r'<td>(.*?)</td><td>(.*?)</td>'    
texts = re.findall(res, content, re.S|re.M)
for m in texts:
    print(m[0],m[1])

輸出內容如下所示:

在這里插入圖片描述

此時需要過濾多余字串,如換行(< br />)、空格(& nbsp;)、加粗(< B></ B>),過濾代碼如下:

# coding=utf-8  
import re
content = '''
<tr><td>1001</td><td>楊秀璋<br /></td></tr>
<tr><td>1002</td><td>顏&nbsp;娜</td></tr>
<tr><td>1003</td><td><B>Python</B></td></tr>
'''
res = r'<td>(.*?)</td><td>(.*?)</td>'    
texts = re.findall(res, content, re.S|re.M)
for m in texts:
    value0 = m[0].replace('<br />', '').replace('&nbsp;', '')
    value1 = m[1].replace('<br />', '').replace('&nbsp;', '')
    if '<B>' in value1:
        m_value = re.findall(r'<B>(.*?)</B>', value1, re.S|re.M)
        print(value0, m_value[0])
    else:
        print(value0, value1)

采用replace將字串“< br />”和“’& nbsp;”替換成空白,實作過濾,而加粗(< B></ B>)需要使用正則運算式過濾,輸出結果如下:

在這里插入圖片描述


五.個人博客爬取實體

切記:這個例子可能不是非常好,但是作為入門及正則運算式結合挺好的,剛開始學習Python網路爬蟲不要嫌麻煩,只有通過類似的訓練,以后面對類似的問題你才會得心應手,更好的抓取需要的資料,

1.分析程序

在講述了正則運算式、常用網路資料爬取模塊、正則運算式爬取資料常見方法等內容之后,我們將講述一個簡單的正則運算式爬取網站的實體,這里講解使用正則運算式爬取作者個人博客網站的簡單示例,獲取所需內容,

作者的個人網址“http://www.eastmountyxz.com/”打開如圖所示,假設現在需要爬取的內容如下:

  • 博客網址的標題(title)內容
  • 爬取所有圖片的超鏈接,比如爬取< img src=”xxx.jpg” />中的“xxx.jpg”
  • 分別爬取博客首頁中的四篇文章的標題、超鏈接及摘要內容,比如標題為“再見北理工:憶北京研究生的編程時光”,

在這里插入圖片描述


第一步 瀏覽器原始碼定位
首先通過瀏覽器定位需要爬取元素的源代碼,比如文章標題、超鏈接、圖片等,發現這些元素對應HTML源代碼存在的規律,這稱為DOM樹檔案節點分析,通過瀏覽器打開網頁,選中需要爬取的內容,右鍵滑鼠并點擊“審查元素”或“檢查”,即可找到所需爬取節點對應的HTML源代碼,如圖所示,

在這里插入圖片描述

標題“再見北理工:憶北京研究生的編程時光”位于< div class=”essay”></ div>節點下,它包括一個< h1></ h1>記錄標題,一個< p></ p>記錄摘要資訊,即:

在這里插入圖片描述
這里需要通過網頁標簽的屬性和屬性值來標記爬蟲節點,即找到class屬性為“essay”的div,就可以定位第一篇文章的位置,同理,其余三篇文章為< div class=”essay1”></ div>、< div class=”essay2”></ div>和< div class=”essay3”></ div>,定位這些節點即可,

第二步 正則運算式爬取標題
網站的標題通常位于< head>< title>…</ title></ head>之間,該網站標題HTML代碼如下:

<head>
   <meta charset=”utf-8>
   <title>秀璋學習天地</title>
   ....
</head>

爬取博客網站的標題“秀璋學習天地”的方法是通過正則運算式“< title>(.*?)</ title>”實作,代碼如下,首先通過urlopen()函式訪問博客網址,然后定義正則運算式爬取,

import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
title = re.findall(r'<title>(.*?)</title>', content.decode('utf-8'))
print(title[0])

輸出結果如下圖所示:

在這里插入圖片描述

第三步 正則運算式爬取所有圖片地址
由于HTML插入圖片標簽格式為“< img src=圖片地址 />”,則使用正則運算式獲取圖片地址的方法為:獲取以“src=”開頭,以雙引號結尾的內容即可,代碼如下:

import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
urls = re.findall(r'src="(.*?)"', content.decode('utf-8'))
for url in urls:
    print(url)

輸出的結果如下所示,共顯示了6張圖片,

在這里插入圖片描述

需要注意:這里的每張圖片都省略了博客地址:

  • http://www.eastmountyxz.com/

我們需要對所爬取的圖片地址進行拼接,增加原博客地址拼成完整的圖片地址,再進行下載,并且該地址通過瀏覽器可以直接訪問查看,如:

  • http://www.eastmountyxz.com/images/11.gif

第四步 正則運算式爬取博客內容
前面第一步講述了如何定位四篇文章的標題,第一篇文章位于< div class=”essay”>和</ div>標簽之間,第二篇位于< div class=”essay1”>和</ div>,依次類推,但是該HTML代碼存在一個錯誤:class屬性通常表示一類標簽,它們的值都應該是相同的,所以這四篇文章的class屬性都應該是“essay”,而name或id才是用來標識標簽的唯一屬性,

這里使用find(’< div class=“essay” >’)函式來定位第一篇文章的起始位置,使用find(’< div class=“essay1” >’)函式來定位第一篇文章的結束位置,從而獲取< div class=”essay”>到</ div>之間的內容,比如獲取第一篇文章的標題和超鏈接代碼如下:

import re
import urllib.request
url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
data = content.decode('utf-8')
start = data.find(r'<div class="essay">')
end = data.find(r'<div class="essay1">')
print(data[start:end])

輸出內容如下,獲取第一篇博客的HTML源代碼,

在這里插入圖片描述

該部分代碼分為三步驟:

  • 呼叫urllib庫的urlopen()函式打開博客地址,并讀取內容賦值給content變數,
  • 呼叫find()函式查找特定的內容,比如class屬性為“essay”的div標簽,依次定位獲取開始和結束的位置,
  • 進行下一步分析,獲取原始碼中的超鏈接和標題等內容,

定位這段內容之后,再通過正則運算式獲取具體內容,代碼如下:

import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
data = content.decode('utf-8')

start = data.find(r'<div class="essay">')
end = data.find(r'<div class="essay1">')
page = data[start:end]
                 
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
t1 = re.findall(res, page) #超鏈接
print(t1[0])
t2 = re.findall(r'<a .*?>(.*?)</a>', page)  #標題
print(t2[0])
t3 = re.findall('<p style=.*?>(.*?)</p>', page, re.M|re.S) #摘要
print(t3[0])

呼叫正則運算式分別獲取內容,由于爬取的段落(P)存在換行內容,所以需要加入re.M和re.S支持換行查找,最后輸出結果如下:

在這里插入圖片描述

2.代碼實作

完整代碼如下:

#coding:utf-8
import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
data = content.decode('utf-8')

#爬取標題
title = re.findall(r'<title>(.*?)</title>', data)
print(title[0])

#爬取圖片地址
urls = re.findall(r'src="(.*?)"', data)
for url in urls:
    print(url)

#爬取內容
start = data.find(r'<div class="essay">')
end = data.find(r'<div class="essay1">')
page = data[start:end]           
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
t1 = re.findall(res, page)  #超鏈接
print(t1[0])
t2 = re.findall(r'<a .*?>(.*?)</a>', page)  #標題
print(t2[0])
t3 = re.findall('<p style=.*?>(.*?)</p>', page, re.M|re.S) #摘要
print(t3[0])
print('')

start = data.find(r'<div class="essay1">')
end = data.find(r'<div class="essay2">')
page = data[start:end]           
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
t1 = re.findall(res, page)  #超鏈接
print(t1[0])
t2 = re.findall(r'<a .*?>(.*?)</a>', page)  #標題
print(t2[0])
t3 = re.findall('<p style=.*?>(.*?)</p>', page, re.M|re.S) #摘要
print(t3[0])

輸出結果如圖所示,

在這里插入圖片描述

通過上面的代碼,讀者會發現使用正則運算式爬取網站還是比較繁瑣,尤其是定位網頁節點時,后面將講述Python提供的常用第三方擴展包,利用這些包的函式進行定向爬取,

六.總結

正則運算式是通過組合的“規則字串”來對運算式進行過濾,從復雜內容中匹配想要的資訊,它的主要物件是文本,適合于匹配文本字串等內容,不適合匹配文本意義,比如匹配URL、Email這種純文本的字符就非常適合,各種編程語言都能使用正則運算式,比如C#、Java、Python等,

正則運算式爬蟲常用于獲取字串中的某些內容,比如提取博客閱讀量和評論數的數字,截取URL域名或URL中某個引數,過濾掉特定的字符或檢查所獲取的資料是否符合某個邏輯,驗證URL或日期型別等,由于其比較靈活、邏輯性和功能性較強的特點,使它能迅速地以極簡單的方式從復雜字串中達到匹配目的,

但它對于剛接觸的人來說,正則運算式比較晦澀難懂;同時,通過它獲取HTML中某些特定文本也比較困難,尤其是當網頁HTML源代碼中結束標簽缺失或不明顯的情況,接下來作者將講述更為強大、智能的第三方爬蟲擴展包,主要是BeautifulSoup和Selenium技術,

前文賞析:

  • [Python從零到壹] 一.為什么我們要學Python及基礎語法詳解
  • [Python從零到壹] 二.語法基礎之條件陳述句、回圈陳述句和函式
  • [Python從零到壹] 三.語法基礎之檔案操作、CSV檔案讀寫及面向物件
  • [Python從零到壹] 四.網路爬蟲之入門基礎及正則運算式抓取博客案例

最后,真誠地感謝您關注“娜璋之家”公眾號,感謝CSDN這么多年的陪伴,會一直堅持分享,希望我的文章能陪伴你成長,也希望在技術路上不斷前行,文章如果對你有幫助、有感悟,就是對我最好的回報,且看且珍惜!2020年8月18日建立的公眾號,再次感謝您的關注,也請幫忙宣傳下“娜璋之家”,哈哈~初來乍到,還請多多指教,

在這里插入圖片描述

在這里插入圖片描述

(By:娜璋之家 Eastmount 2020-09-30 夜于武大 https://blog.csdn.net/Eastmount )


參考文獻如下:

  • 作者書籍《Python網路資料爬取及分析從入門到精通》
  • 作者博客:https://blog.csdn.net/Eastmount

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/148196.html

標籤:其他

上一篇:哈工大作業系統實驗(二)系統呼叫實作

下一篇:Maven創建SSH工程(快速入門)源代碼

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more