我要爬取百度經驗目錄前3頁:
import re
import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getTitle(html):
reg = r'title="([.*\S]*)" target='
imgre = re.compile(reg);
imglist = re.findall(imgre, html)
return imglist
url = "https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn="
for i in range(0,3*7,7):
i = str(i)
a = url+i
print('本頁的鏈接是:\n',a)
html = getHtml(a)
html = html.decode('UTF-8')
print("本頁目錄如下")
for i in getTitle(html):
print(i)
過幾天就可能變成前四頁,因為作者可能續寫新的文章。
目前的運行結果是:
本頁的鏈接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=0
本頁目錄如下
怎么把視頻或者動態圖倒序播放?
怎么用網路畫板繪制隱函式影像?
怎么認識置換與置換矩陣之間的關系?
怎么處理大量資料的擬合(線性規劃處理)?
平面上的點陣與矩陣乘法的關系
怎么使用AudioGenerator函式?
怎么安裝urllib3
本頁的鏈接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=7
本頁目錄如下
怎么用數學手冊計算器繪制兩個函式的影像?
網路畫板怎么實作圖形填充色的動態變化?
txt檔案太長,打不開怎么辦?
怎么用計算機檢驗矩陣乘法滿足結合律?
python里面字串的操作方法有什么?
怎么在手機上玩木棍拼圖的游戲?
音頻基礎——怎么查看音頻的基本引數?
本頁的鏈接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=14
本頁目錄如下
怎樣記住顏色表
undertale第一關怎么過
指南者導航如何升級
手機怎么設定圓柱旋轉?
阿里魯班智能設計平臺怎么用
怎么在手機上發表小說賺錢?
這是一個失敗的爬蟲,因為第三頁有一篇文章的標題沒有爬出來。這篇文章的標題是:《怎么在電腦上安裝VS Code軟體?》
因為標題里面有一個空格[/size]而導致匹配失敗。
我想知道,怎么能夠無遺漏的爬取所有的文章的標題?
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/105077.html
標籤:其他數據庫
上一篇:MYSQL出現High Severity Error
下一篇:mysql主從同步卡住的問題~
