
一、【基本專業術語】
網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽萬維網的網路機器人,其目的一般為編纂網路索引,
網路爬蟲(又稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網資訊的程式或者腳本,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲,
網路爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事后生成索引供用戶搜索,
【一般有兩個步驟】:1.獲取網頁內容 2.對獲得的網頁內容進行處理
準備
Linux開發環境,python3.61安裝方法請參考百度
安裝一些必要的第三方庫
其中requiests可以用來爬取網頁內容,beautifulsoup4用來將爬取的網頁內容分析處理
pip3 install requiests
pip3 install beautifulsoup4
二、【爬起】
使用request庫中的get方法,請求url的網頁內容
三、【撰寫代碼】
[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py
#web爬蟲學習 – 分析
#輸入:url
#處理:request庫函式獲取頁面資訊,并將網頁內容轉換成為人能看懂的編碼格式
#輸出:爬取到的內容
import requests
def getHTMLText(url):
try:
r = requests.get( url, timeout=30 )
r.raise_for_status() #如果狀態碼不是200,產生例外
r.encoding = ‘utf-8’ #字符編碼格式改成 utf-8
return r.text
except:
#例外處理
return " error "
url = “http://www.baidu.com”
print( getHTMLText(url) )
四、【運行效果如下】:
[root@localhost demo]# python3 demo.py
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/2426.html
標籤:其他
