點擊獲取書籍提取碼:kvmf
內容簡介 · · · · · ·
為什么寫這本書
網路爬蟲其實很早就出現了,最開始網路爬蟲主要應用在各種搜索引擎中,在搜索引擎中,主要使用通用網路爬蟲對網頁進行爬取及存盤,
隨著大資料時代的到來,我們經常需要在海量資料的互聯網環境中搜集一些特定的資料并對其進行分析,我們可以使用網路爬蟲對這些特定的資料進行爬取,并對一些無關的資料進行過濾,將目標資料篩選出來,對特定的資料進行爬取的爬蟲,我們將其稱為聚焦網路爬蟲,在大資料時代,聚焦網路爬蟲的應用需求越來越大,
目前在國內Python網路爬蟲的書籍基本上都是從國外引進翻譯的,國內的本版書籍屈指可數,故而我跟華章的副總編楊福川策劃了這本書,本書的撰寫程序中各方面的參考資料非常少,因此完成本書所花費的精力相對來說是非常大的,
本書從系統化的視角,為那些想學習Python網路爬蟲或者正在研究Python網路爬蟲的朋友們提供了一個全面的參考,讓讀者可以系統地學習Python網路爬蟲的方方面面,在理解并掌握了本書的實體之后,能夠獨立撰寫出自己的Python網路爬蟲專案,并且能夠勝任Python網路爬蟲工程師相關崗位的作業,
同時,本書的另一個目的是,希望可以給大資料或者資料挖掘方向的從業者一定的參考,以幫助這些讀者從海量的互聯網資訊中爬取需要的資料,所謂巧婦難為無米之炊,有了這些資料之后,從事大資料或者資料挖掘方向作業的讀者就可以進行后續的分析處理了,
本書的主要內容和特色
本書是一本系統介紹Python網路爬蟲的書籍,全書注重實戰,涵蓋網路爬蟲原理、如何手寫Python網路爬蟲、如何使用Scrapy框架撰寫網路爬蟲專案等關于Python網路爬蟲的方方面面,
本書的主要特色如下:
系統講解Python網路爬蟲的撰寫方法,體系清晰,
結合實戰,讓讀者能夠從零開始掌握網路爬蟲的基本原理,學會撰寫Python網路爬蟲以及Scrapy爬蟲專案,從而撰寫出通用爬蟲及聚焦爬蟲,并掌握常見網站的爬蟲反屏蔽手段,
有配套免費視頻,對于書中的難點,讀者可以直接觀看作者錄制的對應視頻,加深理解,
擁有多個爬蟲專案撰寫案例,比如博客類爬蟲專案案例、圖片類爬蟲專案案例、模擬登錄爬蟲專案等,除此之外,還有很多不同種類的爬蟲案例,可以讓大家在理解這些案例之后學會各種型別爬蟲的撰寫方法,
總之,在理解本書內容并掌握書中實體之后,讀者將能勝任Python網路爬蟲工程師方向的作業并學會各種型別網路爬蟲專案的撰寫,此外,本書對于大資料或資料挖掘方向的從業者也非常有幫助,比如可以利用Python網路爬蟲輕松獲取所需的資料資訊等,
本書面向的讀者
Python網路爬蟲初學者
網路爬蟲工程師
大資料及資料挖掘工程師
高校計算機專業的學生
其他對Python或網路爬蟲感興趣的人員
如何閱讀本書
本書分為四篇,共計20章,
第一篇為理論基礎篇(第1~2章),主要介紹了網路爬蟲的基礎知識,讓大家從零開始對網路爬蟲有一個比較清晰的認識,
第二篇為核心技術篇(第3~9章),詳細介紹了網路爬蟲實作的核心技術,包括網路爬蟲的作業原理、如何用Urllib庫撰寫網路爬蟲、爬蟲的例外處理、正則運算式、爬蟲中Cookie的使用、手寫糗事百科爬蟲、手寫鏈接爬蟲、手寫微信爬蟲、手寫多執行緒爬蟲、瀏覽器偽裝技術、Python網路爬蟲的定向爬取技術及實體等,學完這一部分內容,讀者就可以寫出自己的爬蟲了,這部分的爬蟲撰寫采用的是一步步純手寫的方式進行的,沒有采用框架,
第三篇為框架實作篇(第10~17章),主要詳細介紹了如何用框架實作Python網路爬蟲專案,使用框架實作Python網路爬蟲專案相較于手寫方式更加便捷,主要包括Python爬蟲框架分類、Scrapy框架在各系統中的安裝以及如何避免各種“坑”、如何用Scrapy框架撰寫爬蟲專案、Scrapy框架架構詳解、Scrapy的中文輸出與存盤、在Scrapy中如何使用for回圈實作自動網頁爬蟲、如何通過CrawlSpider實作自動網頁爬蟲、如何將爬取的內容寫進資料庫等,其中第12章為基礎部分,讀者需要著重掌握,
第四篇為專案實戰篇(第18~20章),分別講述了博客類爬蟲專案、圖片類爬蟲專案、模擬登錄爬蟲專案的編程及實作,其中,也會涉及驗證碼處理等方面的難點知識,幫助讀者通過實際的專案掌握網路爬蟲專案的撰寫,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/244562.html
標籤:Python
上一篇:APP逆向案例---xxapp
