Python爬蟲學習
1、什么是爬蟲?
網路爬蟲是可以按照一定規則,根據用戶需求,自動抓取互聯網上用戶所需要的資訊的程式或腳本,
2、爬蟲的作用?
能通過瀏覽器訪問的資料都能通過爬蟲獲取,
3、爬蟲本質?
模仿瀏覽器打開網址,獲取網址中我們需要的資料,
Python對網頁訪問首先需要引入urllib.request
urllib中有 urllib.request.urlopen(str) 方法用于打開網頁并回傳一個物件,呼叫這個物件的read()方法后能直接獲得網頁的源代碼,內容與瀏覽器右鍵查看原始碼的內容一樣,
print(chardet.detect(htmlCode))
import urllib.request
import chardet
import re
page = urllib.request.urlopen('http://www.meituba.com/tag/juesemeinv.html') #打開網頁
htmlCode = page.read() #獲取網頁源代碼
#print(chardet.detect(htmlCode)) #查看編碼方式
data = htmlCode.decode('utf-8')
#print(data) #列印網頁源代碼
#pageFile = open('pageCode.txt','wb')#以寫的方式打開pageCode.txt
#pageFile.write(htmlCode)#寫入
#pageFile.close()#開了記得關
reg = r'src="(.+?\.jpg)"'#正則運算式
reg_img = re.compile(reg)#編譯一下,運行更快
imglist = reg_img.findall(data)#進行匹配
for img in imglist:
print(img)
轉載原著 添加鏈接描述
總結:
我是一個Python爬蟲小白,由于對他比較感興趣,所以就開始學習,我是從一些軟體中找尋視頻學習的,或者從網站上搜索一些相關知識,剛開始學有點懵,看不懂,但是慢慢來,學習任何東西都需要一個程序,在這個程序中只要努力,總會有所成就,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/229863.html
標籤:python
