主頁 > 軟體設計 > 精寫15篇,學會Python爬蟲 -- (1)開篇:初識爬蟲,基礎鋪墊 丨蓄力計劃

精寫15篇,學會Python爬蟲 -- (1)開篇:初識爬蟲,基礎鋪墊 丨蓄力計劃

2021-04-11 10:48:39 軟體設計

在這里插入圖片描述


文章目錄

    • 系列導讀
      • 這個系列是什么?
      • 本系列配套資源
      • 已加入CSDN“蓄力計劃”,打造精品系列
      • 系列適用人群
    • 初識爬蟲
      • 卸下心理包袱
      • 記住我們是為什么學習爬蟲
      • 網路爬蟲作業方式
      • 入門心法:法
    • 認識HTML網頁
      • 打開網頁原始碼
      • 獲取網頁原始碼
        • 注一
        • 從自己的電腦上獲取請求頭
        • 注二:

上圖已魔法反爬,哈哈哈,想爬就爬唄,不攔著


系列導讀

這個系列是什么?

本系列會寫一些什么內容,在開頭那張思維導圖里面寫了個大概了,至于導圖里面沒有寫出來的,就作為一些探索的內容吧,

我之前有寫過一個Python爬蟲自學系列,反響也還可以,不過那個系列里面的不少鏈接是另一個付費專欄里面的內容了,相對要閱讀就有些困難,

這個系列是在原有知識點的基礎上,加入一些新的知識點,重新寫的一個系列,不出意外,這個系列將會是我在Python爬蟲領域的最后一個教學系列,


本系列配套資源

這個系列是會有配套視頻課的,將會發布在CSDN學院上,當然,如果還是喜歡看博文的朋友可以看我的這個系列,


已加入CSDN“蓄力計劃”,打造精品系列

由于參加了CSDN的“蓄力計劃”,諸多條條框框,總結一下就是為讀者服務,所以這個系列會寫的很認真,畢竟我想上榜啊,大家多多支持,


系列適用人群

有Python基本語法基礎的人,分支回圈、函式、類、模塊、例外處理等,

不喜歡枯燥乏味的填鴨式教育的朋友,

肯動手實操為最佳,


初識爬蟲

卸下心理包袱

不知道大家對于爬蟲這項技術是怎么看的,我是猶豫了很久,才學的爬蟲(要不是學長把買好的課拍在我面前,我估計還不動手),倒不是說爬蟲有多難,但是在當時的我看來,爬蟲技術離我那是十萬八千里,爬蟲會不會很難吶,但是真的放下心里的包袱去學的時候,會發現爬蟲也就那樣,一個月入門爬蟲綽綽有余了,


記住我們是為什么學習爬蟲

為什么要專門講這個呢,因為有的年輕人,入門爬蟲之后就會比較喜歡炫技,這也無可厚非啦,我也有過一段喜歡炫技的時間,
但是呢,我們學習爬蟲技術,使用爬蟲技術,最本質的目標是什么?不就是為了獲取資料嘛,

獲取什么資料?

可以復制的資料、
可以復制的資料,但是量大、
不可以復制的資料、
不可以復制的資料,而且量還大、
多種資料糅雜
···

大概是這些吧,那我們先來簡單講一下針對這些資料,分別要如何處理吧,

對于第一種:那還費什么話,直接復制粘貼就好,我想應該沒有人會專門為了這種資料去寫個爬蟲吧?

對于第二種:那需要使用爬蟲了,這里的量大,怎么說也得有個幾十上百頁吧,但是這時候我們不要自己去寫爬蟲,應該使用現有代碼框架,
		  這里的框架指的是我們自己平時封裝好的代碼框架,不要迷戀什么scrapy框架,資料量還沒大到那個程度呢,
		  在本系列中,我會陸陸續續放上我自己平時使用的比較順手的封裝代碼,大家自取,

對于第三種:如果還在“提取圖中文字”的朋友可以停手了,學完這篇就可以停手了,我們直接打開它的原始碼,直接復制就好了,

對于第四種:既然不讓復制,那要直接爬取就比較麻煩了,這時候就需要根據實際情況選用合適的方法來爬取了,

對于第五種:伺機而動,爬下來之后還要做一系列資料清洗作業才行,

總之,這個系列貫穿頭尾的線索就是:怎么簡單怎么來,好不?咱不搞那些花里胡哨的


網路爬蟲作業方式

在這里插入圖片描述

入門心法:法

玩爬蟲吶,是有可能會跟“法”打交道的,這點大家還是要了解一下的,新聞上時不時的就有報道,說某某資料團隊被一鍋端了,因為爬了不該爬的資料,并做商用,

然后呢,我昨晚苦思冥想,想到了老師上課所說的一句話:我們為了學術研究而去獲取的資料,不拿去傳播就沒有太大的問題,
懂我意思吧,不拿去傳播,

其實吧,就我這技術,能拿去賣錢的資料,我也拿不到嘛,

好了好了,言歸正傳,寫爬蟲的都知道一般網站都有robot.txt,可以看網站上的哪些目錄拒絕爬蟲,這個檔案一般在網站的根目錄后面跟上robot.txt打開,如果比較穩重的朋友建議采用這種方式,像我這種比較飄的,就直接爬了,不給爬的話,回傳的狀態量就會直接提示了,

網站地圖就先不說啦,后面批量爬取的時候再說,那個東西可真的是玩火了,


認識HTML網頁

“學爬蟲,對HTML的要求很高嗎?”很多朋友都問我這個問題,
我說我一個后端選手都能學爬蟲,你們怕什么?

打開網頁原始碼

推薦使用瀏覽器:谷歌瀏覽器

隨便打開一個網頁,或者你們就對著這篇博客,我們來打開網頁源代碼看一下:

方法一:網頁空白處右擊,檢查

方法二:F12

如果遇上那種不讓右擊,又不讓F12的網頁的話,這種網頁比較少見,但是碰到的時候還是很懵逼的,

方法三:Ctrl+Shift+i

方法四:滑鼠點擊網址欄,然后再按F12,目前不清楚這是個例還是通用的,因為我就遇到了一個這種網頁,

方法五:自定義及控制->更多工具->開發者工具,

作為一個爬蟲選手,如果連審查頁面元素的能力都沒有,那也就不要干了嘛,


在這里插入圖片描述

左邊這一塊兒,就是網頁原始碼,

而我們今天的任務也很明確,獲取它的原始碼,


獲取網頁原始碼

這一塊兒,有一個比較出名且常用的模塊兒來專門負責:requests,

import requests

獲取網頁原始碼也只需要一行簡單的代碼:

res = resquests(url,headers = headers)

有時候需要帶上個頭,有時候不需要,不過大部分時候需要,那就帶上吧,

先看代碼,然后我們對著代碼里面還沒說的點進行補充,
目前的封裝代碼如下:

def get_html(url,times):
    '''
    這是一個用戶獲取網頁源資料的函式
    :param url: 目標網址
    :param times: 遞回執行次數
    :return: 如果有,就回傳網頁資料,如果沒有,回傳None
    '''
    try:
        res = requests.get(url = url,headers = {
            "User-Agent":random.choice(user_agent_list)		# 注一	
            })   #帶上請求頭,獲取資料
        if res.status_code>=200 and res.status_code<=300:   # 注二
            return res
        else:
            return None
    except Exception as e:
        print(e)        # 顯示報錯原因(可以考慮這里寫入日志)
        if times>0:
            get_html(url,times-1)   # 遞回執行

注一

這里是一個請求頭的串列,
倒不是我小氣,IP池分兩種,一種是私用的,一種是公有的,公有的IP池有現成的包,from fake_useragent import UserAgent,但是公有的IP都不穩定啊,畢竟大家都在用,用多了就讓人封了唄,封了你還不知道,傻乎乎的去用,就爬不到資料了唄,

user_agent_list = [
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
    ]

從自己的電腦上獲取請求頭

還是上面那個圖,在“Element”右邊,找到一個“network”,點進去,什么都沒有,是吧,
在左邊的網頁上,右擊,重新加載,
如果網頁是無法右擊狀態的話,可以在電腦左上角,重繪網頁,這時候,右側就會出現一些包,

在這里插入圖片描述

看到沒,我圈起來的那三個圈,從上往下依次點擊兩個,然后會發現包少了一些,隨便點一個,再點我圈出來那第三個圈,然后往下劃,找到一個“User-Agent”打頭的,把后面那個復制下來,

如果沒有就再找一個包,


注二:

那個是網頁校驗碼,當校驗碼在以2XX的形式存在的時候,說明這個網頁可以被爬取,否則就不要想太多啦,


今天就先到這里,下篇見咯,

在這里插入圖片描述

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/274779.html

標籤:其他

上一篇:位元組Android開發崗首戰演算法被慘虐,復盤兩個月再戰拿下2-2

下一篇:雙向回圈鏈表講解及實作

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more