python網路爬蟲學習筆記（十一）：Ajax資料爬取-有解無憂

文章目錄

- 1.基本介紹
- 2.基本原理
- 3.實戰

有時候我們在用requests抓取頁面的時候，得到的結果可能和在瀏覽器中看到的不一樣：在瀏覽器中可以看到正常顯示的頁面資料，但是使用requests得到的結果并沒有，這是因為requests獲取的都是原始的HTML檔案，而瀏覽器中的頁面則是經過JavaScript處理資料后生成的結果，這些資料的來源有多種，可能是通過Ajax加載的，可能是包含在HTML檔案中的，也可能是經過JavaScript和特定演算法計算后生成的，

對于第一種情況，資料加載是一種異步加載方式，原始的頁面最初不會包含某些資料，原始頁面加載完后，會再向服務器請求某個介面獲取資料，然后資料才被處理從而呈現到網頁上，這其實就是發送了一個Ajax請求，

照Web發展的趨勢來看，這種形式的頁面越來越多，網頁的原始HTML檔案不會包含任何資料，資料都是通過Ajax統一加載后再呈現出來的，這樣在Web開發上可以做到前后端分離，而且降低服務器直接渲染頁面帶來的壓力，

所以如果遇到這樣的頁面，直接利用requests等庫來抓取原始頁面，是無法獲取到有效資料的，這時需要分析網頁后臺向介面發送的Ajax請求，如果可以用requests來模擬Ajax請求，那么就可以成功抓取了，

1.基本介紹

Ajax，全稱為Asynchronous JavaScript and XML，即異步的JavaScript和XML，它不是一門編程語言，而是利用JavaScript在保證頁面不被重繪、頁面鏈接不改變的情況下與服務器交換資料并更新部分網頁的技術，

有的網頁，一直往下滑，就會出現一個加載的頁面，不一會兒下方就繼續出現了新的內容，個程序其實就是Ajax加載的程序，

我們注意到頁面其實并沒有整個重繪，也就意味著頁面的鏈接沒有變化，但是網頁中卻多了新內容，也就是后面刷出來的新微博，這就是通過Ajax獲取新資料并呈現的程序，

2.基本原理

初步了解了Ajax之后，我們再來詳細了解它的基本原理，發送Ajax請求到網頁更新的這個程序可以簡單分為以下3步：

(1) 發送請求； (2) 決議內容； (3) 渲染網頁，

下面我們分別來詳細介紹這幾個程序，

發送請求
我們知道JavaScript可以實作頁面的各種互動功能，Ajax也不例外，它也是由JavaScript實作的，實際上執行了如下代碼：

var xmlhttp;
if (window.XMLHttpRequest) {
    // code for IE7+, Firefox, Chrome, Opera, Safari
    xmlhttp=new XMLHttpRequest();
} else {// code for IE6, IE5
    xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function() {
    if (xmlhttp.readyState==4 && xmlhttp.status==200) {
        document.getElementById("myDiv").innerHTML=xmlhttp.responseText;
    }
}
xmlhttp.open("POST","/ajax/",true);
xmlhttp.send();

這是JavaScript對Ajax最底層的實作，實際上就是新建了XMLHttpRequest物件，然后呼叫onreadystatechange屬性設定了監聽，然后呼叫open()和send()方法向某個鏈接（也就是服務器）發送了請求，前面用Python實作請求發送之后，可以得到回應結果，但這里請求的發送變成JavaScript來完成.由于設定了監聽，所以當服務器回傳回應時，onreadystatechange對應的方法便會被觸發，然后在這個方法里面決議回應內容即可，

因此，我們知道，真實的資料其實都是一次次Ajax請求得到的，如果想要抓取這些資料，需要知道這些請求到底是怎么發送的，發往哪里，發了哪些引數，如果我們知道了這些，就可以用Python模擬這個發送操作，獲取到其中的結果了，

3.實戰

我們用程式模擬這些Ajax請求，并爬取微博的前十頁

from urllib.parse import urlencode
import requests
base_url = 'https://m.weibo.cn/api/container/getIndex?'
 
headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/2830678474',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}
 
def get_page(page):
    params = {
        'type': 'uid',
        'value': '2830678474',
        'containerid': '1076032830678474',
        'page': page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('Error', e.args)

首先，這里定義了base_url來表示請求的URL的前半部分，接下來，構造引數字典，其中type、value和containerid是固定引數，page是可變引數，接下來，呼叫urlencode()方法將引數轉化為URL的GET請求引數，即類似于type=uid&value=2830678474&containerid=1076032830678474&page=2這樣的形式，隨后，base_url與引數拼合形成一個新的URL，接著，我們用requests請求這個鏈接，加入headers引數，然后判斷回應的狀態碼，如果是200，則直接呼叫json()方法將內容決議為JSON回傳，否則不回傳任何資訊，如果出現例外，則捕獲并輸出其例外資訊，

隨后，我們需要定義一個決議方法，用來從結果中提取想要的資訊，比如這次想保存微博的id、正文、贊數、評論數和轉發數這幾個內容，那么可以先遍歷cards，然后獲取mblog中的各個資訊，賦值為一個新的字典回傳即可：

from pyquery import PyQuery as pq

def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            weibo = {}
            weibo['id'] = item.get('id')
            weibo['text'] = pq(item.get('text')).text()
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo

這里我們借助pyquery將正文中的HTML標簽去掉，

最后，遍歷一下page，一共10頁，將提取到的結果列印輸出即可：

if __name__ == '__main__':
    for page in range(1, 11):
        json = get_page(page)
        results = parse_page(json)
        for result in results:
            print(result)

{'id': '4544491111844364', 'text': '老婆真好啊，今天感覺作業有點累不太開心，然后老婆晚上和我開了一下視頻對我笑了笑撒了撒嬌，我瞬間又開心又好了，感覺心里暖暖的，我老婆最好了！', 'attitudes': 12, 'comments': 3, 'reposts': 0}
{'id': '4543259479641769', 'text': '我老婆最好看了', 'attitudes': 12, 'comments': 0, 'reposts': 0}
{'id': '4543252072761828', 'text': '不知道大家是否已經對抖音有了一種厭倦？最早的時候我覺得內容質量還行，現在沒刷幾個視頻，很多都是廣告、帶貨、博人眼球、擺拍、空洞的內容，質量越來越差，越看越沒勁，卸了卸了，還是擼代碼好玩，', 'attitudes': 10, 'comments': 8, 'reposts': 0}
{'id': '4541086507209784', 'text': '鐵窗愛情3', 'attitudes': 23, 'comments': 3, 'reposts': 1}
{'id': '4541085119162017', 'text': '即便沒收費，那直播搞這個操作也是太服了，', 'attitudes': 3, 'comments': 0, 'reposts': 0}
{'id': '4539580352832042', 'text': '鐵窗愛情2', 'attitudes': 3, 'comments': 4, 'reposts': 0}
{'id': '4538323178106309', 'text': '老婆返校了，但是出不來，于是就有了鐵窗愛情，@長澤牙妹 北京', 'attitudes': 20, 'comments': 6, 'reposts': 0}

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/139204.html

標籤：AI

上一篇：Python之資料可視化——matplotlib系統介紹(一)

下一篇：ctfshow-月餅杯WP