一起學爬蟲（Python） — 16 梅開二度，貓眼票房！-有解無憂

前言

咳咳，本來今天是沒想更新的，因為我發現如果不更新漲粉速度比日更要快的多，是的你沒聽錯，經過一天兩天的咕咕咕，閱讀量是蹭蹭蹭的上去了，

這到底是為什么呢？？？

讓我想起一句話，有的人，死了比活著有用，

也許我放鴿子比日更有用叭，

在這里插入圖片描述
快用你的點贊安慰一下受傷的小澤吧！！！

進入主題

既然我是不想更新的，那么我為什么要更新呢？

因為我不想，所以我想，懂的都懂，

好啦，其實是因為某位小粉絲在背地里對小澤做了這樣的事…

在這里插入圖片描述
那我能說不嗎？

當然不可以啦！

所以！我們今天就來，爬貓眼票房！

褻玩焉

俗話說得好，猶抱琵琶半遮面，只可遠觀而不可褻玩焉，今天我們就要玩一玩這個貓眼票房，看看他到底是男是女，是大是小，是深是淺，沖沖沖！

在這里插入圖片描述
神奇的傳送門

大家快進到我的洞里面鴨

可以看到，這位小粉絲想要的前100資料應該就是…

在這里插入圖片描述
往下拉，拉到最下面：

在這里插入圖片描述
發現有分頁，一頁是10部，一共是10頁，那么一共是多少部電影呢？

10x10=100，沒錯，小伙伴們算對啦！一共是100部電影，

因為100部電影 = 前100部電影的數量，
所以我們找對了！

成功水了一波字數，

在這里插入圖片描述
接下來就一一看看每一頁的url有沒有規律吧~

第一頁：
在這里插入圖片描述
第二頁：

第三頁：

第N頁：

一共是十頁，所以我們回圈十次，分別請求每一頁，

直接上代碼！

# 匯入模塊和包
import requests
from lxml import etree

然后指定我們的url，因為這里的url的規律已經被我們找到啦，所以我們就用拼接的形式組成：

url_low = 'https://maoyan.com/board/4?offset='

因為這個url是不完整的，所以我們叫它lowのurl！

注意注意注意，這個url是不完整的！

接下來我們用回圈拼接出10個完整的url：

for i in range(10):
    # 如果不懂i是什么可以先把i列印一下
    # print(i)
    url = url_low + str(i*10)
    print(url)

至于為什么要給i乘上10，不要忘了我們找到的規律鴨！（n-1）*10

但是在python中呢，往往是從0開始的，所以也就不用減1了，

至于str，是為了把int型別的整數轉換成str型別的字串，才能和很lowのurl進行拼接，

然后print一下每一個url，發現都沒有毛病對吧：

在這里插入圖片描述
如果有，那一定是你沒有點贊，

在這里插入圖片描述
既然拿到了所有的url，就讓我們開始…

等等，不要忘了headers！

headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}

接下來，開始我們的偉大計劃吧！

烏拉！！！

for i in range(10):
    # 如果不懂i是什么可以先把i列印一下
    # print(i)
    url = url_low + str(i*10)
    # print(url)
    # 請求這次回圈對應的頁面
    res = requests.get(url=url,headers=headers).text
    # 樹化這次回圈對應的界面
    tree = etree.HTML(res)
    # 在這次回圈對應的界面中找資料
    tree.xpath('')

可以看到，上面代碼里的xpath里面我們還沒有寫東西，為什么呢？

一起去找唄~

在這里插入圖片描述
可以看出來，每個頁面里的10個電影里的資料都是存放在一個dl的串列里的，每一個都是弟弟，

那我們的xpath就可以先獲取這個dl的串列，然后回圈出這10個電影對吧，先獲取串列嘛，不然你直接獲取電影只能獲取一個的，

# 翻譯過來呢，就是html下面的body下面的第四個div
# 下面的div下面的div下面的第一個div下面的dl下面的所有dd
dd = tree.xpath('/html/body/div[4]/div/div/div[1]/dl/dd')

然后列印一下dd，看一下有資料沒有哈，

在這里插入圖片描述

可以看到是有的，而且每個頁面里面都是有10個電影的，但是會有些空串列，

當然如果你再運行一遍可能就會發現全都是空串列了，這說明我們不能訪問的太頻繁！

那就設定一個休眠唄，每隔多少秒訪問一次，

import time
time.sleep(0.5)

在這里插入圖片描述
也就是這樣子哦，別搞錯了，

在這里插入圖片描述
這下就沒問題了，

那我們繼續唄~

現在我們得到了每一個頁面的dd串列，dd串列里有我們要的詳細資訊，那我們只要處理好一個回圈里的dd串列，其他回圈也就自己處理好了吧，

	# 回圈遍歷dl串列里的每一個dd
    for z in dd:
    	# 排名，爬取出來是個串列，所以用[0]
        top = z.xpath('./i/text()')[0]
        name = z.xpath('./a/@title')[0]
        print('排名：',top,'名字：',name)
    # 防止我們太快貓眼受不了
    time.sleep(0.5)