3年已過，你知道這些目標網站，過去是如何被爬的嗎？爬蟲100例復盤5-有解無憂

8個案例，無一過時

- 案例 20：慕課網免費課程抓取
- 案例 21：網易云課堂資料采集
- 案例 22：CSDN 學院課程資料采集
- 案例 23：石家莊鏈家租房資料抓取
- 案例 24：微醫掛號網醫生資料抓取
- 案例 25：知乎文章圖片爬取器之一
- 案例 26：知乎文章圖片爬取器之二
- 案例 27：微醫掛號網專家團隊資料抓取
- 案例 28：虎嗅網文章資料抓取
- 今日復盤結論
- 收藏時間

案例 20：慕課網免費課程抓取

案例地址：https://dream.blog.csdn.net/article/details/83658088

本案例使用的是 requests + pyquery，資料存盤為 mongodb，

案例間隔 3 年，依舊可用，平臺穩定，代碼有效，

案例 21：網易云課堂資料采集

案例地址：https://dream.blog.csdn.net/article/details/83787417

本案例使用的是 requests 中的 post 請求，資料獲取直接呼叫服務器回傳 JSON 格式資料，

存盤資料使用的是 mongodb，

案例因為著作權問題，其中部分重要資料已經被隱藏，測驗后發現介面 https://study.163.com/p/search/studycourse.json 依舊可用，顧代碼可繼續使用學習，

案例 22：CSDN 學院課程資料采集

案例地址：https://dream.blog.csdn.net/article/details/83824019

本案例使用的模塊包含 asyncio，aiohttp，lxml，資料存盤到 mongodb 中，

復盤程序發現串列分頁發生了變化，具體如下，其它核心思路無變化，繼續學習即可，

https://edu.csdn.net/course?page=1
https://edu.csdn.net/course?page=2
https://edu.csdn.net/course?page=3

案例 23：石家莊鏈家租房資料抓取

案例地址：https://dream.blog.csdn.net/article/details/84029492

本案例使用的模塊包含 fake_useragent，lxml，asyncio，aiohttp，pandas，

代碼可用，繼續學習吧，

案例 24：微醫掛號網醫生資料抓取

案例地址：https://dream.blog.csdn.net/article/details/84072554

本案例使用的模塊包含 pyppeteer ，pyquery，asyncio

從本案例開始，爬蟲 100 例各種第三方模塊逐步進行了擴展，

目標網站存在，案例可用，

案例 25：知乎文章圖片爬取器之一

案例地址：https://dream.blog.csdn.net/article/details/84229219

竟然是對知乎發起了采集，當前膽量可以呀，

本案例使用的模塊包含 requests ，fake_useragent，pymongo

測驗了一下，代碼無問題，精簡版的如下所示：

import requests

class ZhihuOne(object):

    def __init__(self, totle):

        self._offset = 0
        self._totle = totle
        #self._ua = UserAgent()

    def run(self):

        print("正在抓取 {} 資料".format(self._offset))
        headers = {
            "upgrade-insecure-requests": "1",
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"
        }
        with requests.Session() as s:
            try:
                with s.get("https://www.zhihu.com/api/v4/questions/292393947/answers?include=comment_count,content,voteup_count,reshipment_settings,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;data[*].author.follower_count,badge[*].topics&limit=5&offset={}&sort_by=default".format(self._offset), headers=headers, timeout=3) as rep:
                    data = rep.json()
                    print(data)

            except Exception as e:
                print(e.args)

            finally:

                if self._offset <= self._totle:
                    self._offset = self._offset + 5  # 每次+5
                    print("防止被辦，休息3s")

                    self.run()
                else:
                    print("所有資料獲取完畢")


if __name__ == '__main__':
    # 偏移量是0,5,10   i=1  (i-1)*5
    zhi = ZhihuOne(1084)
    zhi.run()

案例 26：知乎文章圖片爬取器之二

案例地址：https://dream.blog.csdn.net/article/details/84280916

案例可用，核心目標是采集知乎文章中的圖片，整體還不錯，

案例 27：微醫掛號網專家團隊資料抓取

案例地址：https://dream.blog.csdn.net/article/details/84328092

本案例開始使用了一款 Web 端的可視化爬蟲庫，pyspider，

目標站點依舊可用，顧本案例可正常學習，

復盤程序發現有大佬還在學習，還有一個漏掉的評論，

在這里插入圖片描述

案例 28：虎嗅網文章資料抓取

案例地址：https://dream.blog.csdn.net/article/details/84556156

復盤發現 API 的請求地址已經發生變化，現介面地址如下：

https://article-api.huxiu.com/web/article/articleList

請求引數也進行了更換，

platform: www
recommend_time: 1627999149
pagesize: 22

代碼實作思路基本一致，介面與引數進行更換即可復現本案例，

今日復盤結論

今日復盤了 8 個案例，令人欣喜的是 100% 可用，這更證明了《爬蟲 100 例》案例選擇的正確與準確性，一起來學習吧，

良心博主，竟然 3 年不掉線，

收藏時間

本期博客收藏過 400，立刻更新下一篇

今天是持續寫作的第 194 / 200 天，
可以關注我，點贊我、評論我、收藏我啦，

更多精彩

Python 爬蟲 100 例教程導航帖（抓緊訂閱啦）

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/292238.html

標籤：其他

上一篇：??三萬字《C/C++面試突擊200題》四年面試官爆肝整合??(附答案，建議收藏)

下一篇：TCP/IP協議詳解