前言
本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
作者:Python開發與大資料人工智能
今天就來談談 如何用快速入門爬蟲,
先說結論:入門爬蟲很容易,幾行代碼就可以,可以說是學習 Python 最簡單的途徑,
以我純小白、零基礎的背景來說,入門爬蟲其實很容易,容易在代碼撰寫很簡單,簡單的爬蟲通常幾行就能搞定,而不容易在確定爬蟲的目標,也就是說為什么要去寫爬蟲,有沒有必要用到爬蟲,是不是手動操作幾乎無法完成,互聯網上有數以百萬千萬計的網站,到底以哪一個網站作為入門首選,這些問題才是難點,所以在動手寫爬蟲前,最好花一些時間想一想這清楚這些問題,
PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取
可以免費領取原始碼、專案實戰視頻、PDF檔案等
第一步,確立目標,
爬取國內所有上市公司資訊
直接開始
確定了目標后,第二步就可以開始寫爬蟲了,如果你像我一樣,之前沒有任何編程基礎,那我下面說的思路,可能會有用,
剛開始動手寫爬蟲,我只關注最核心的部分,也就是先成功抓到資料,其他的諸如:下載速度、存盤方式、代碼條理性等先不管,這樣的代碼簡短易懂、容易上手,能夠增強信心,
所以,我在寫第一遍的時候,只用了 5 行代碼,就成功抓取了全部所需的資訊,當時的感覺就是很爽,覺得爬蟲不過如此啊,自信心爆棚,
3000+ 上市公司的資訊,安安靜靜地躺在 Excel 中:
不斷完善
有了上面的資訊后,我開始繼續完善代碼,因為 5 行代碼太單薄,功能也太簡單,大致從以下幾個方面進行了完善:
增加例外處理
由于爬取上百頁的網頁,中途很可能由于各種問題導致爬取失敗,所以增加了 try except 、if 等陳述句,來處理可能出現的例外,讓代碼更健壯,
增加代碼靈活性
初版代碼由于固定了 URL 引數,所以只能爬取固定的內容,但是人的想法是多變的,一會兒想爬這個一會兒可能又需要那個,所以可以通過修改 URL 請求引數,來增加代碼靈活性,從而爬取更靈活的資料,
修改存盤方式
初版代碼我選擇了存盤到 Excel 這種最為熟悉簡單的方式,人是一種惰性動物,很難離開自己的舒適區,但是為了學習新知識,所以我選擇將資料存盤到 MySQL 中,以便練習 MySQL 的使用,
加快爬取速度
初版代碼使用了最簡單的單行程爬取方式,爬取速度比較慢,考慮到網頁數量比較大,所以修改為了多行程的爬取方式,
經過以上這幾點的完善,代碼量從原先的 5 行增加到了下面的幾十行:
但是這個程序卻覺得很自然,因為每次修改都是針對一個小點,一點點去學,搞懂后添加進來,而如果讓我上來就直接寫出這幾十行的代碼,我很可能就放棄了,
所以,你可以看到,入門爬蟲是有套路的,最重要的是給自己信心,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/47283.html
標籤:Python
