一個失敗的python爬蟲-有解無憂

我要爬取百度經驗目錄前3頁：

import re

import urllib.request



def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    return html





def getTitle(html):

    reg = r'title="([.*\S]*)" target='

    imgre = re.compile(reg);

    imglist = re.findall(imgre, html)

    return imglist



url = "https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn="

for i in range(0,3*7,7):

    i = str(i)

    a = url+i

    print('本頁的鏈接是:\n',a)

    html = getHtml(a)

    html = html.decode('UTF-8')

    print("本頁目錄如下")

    for i in getTitle(html):

        print(i)

過幾天就可能變成前四頁，因為作者可能續寫新的文章。
目前的運行結果是：
本頁的鏈接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=0
本頁目錄如下
怎么把視頻或者動態圖倒序播放？
怎么用網路畫板繪制隱函式影像？
怎么認識置換與置換矩陣之間的關系？
怎么處理大量資料的擬合(線性規劃處理)？
平面上的點陣與矩陣乘法的關系
怎么使用AudioGenerator函式？
怎么安裝urllib3
本頁的鏈接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=7
本頁目錄如下
怎么用數學手冊計算器繪制兩個函式的影像？
網路畫板怎么實作圖形填充色的動態變化？
txt檔案太長，打不開怎么辦？
怎么用計算機檢驗矩陣乘法滿足結合律？
python里面字串的操作方法有什么？
怎么在手機上玩木棍拼圖的游戲？
音頻基礎——怎么查看音頻的基本引數？
本頁的鏈接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=14
本頁目錄如下
怎樣記住顏色表
undertale第一關怎么過
指南者導航如何升級
手機怎么設定圓柱旋轉?
阿里魯班智能設計平臺怎么用
怎么在手機上發表小說賺錢？
這是一個失敗的爬蟲，因為第三頁有一篇文章的標題沒有爬出來。這篇文章的標題是：《怎么在電腦上安裝VS Code軟體？》
因為標題里面有一個空格[/size]而導致匹配失敗。

我想知道，怎么能夠無遺漏的爬取所有的文章的標題？

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/105077.html

標籤：其他數據庫

上一篇：MYSQL出現High Severity Error

下一篇：mysql主從同步卡住的問題~