死黨一直暗戀校花,但是校花對他印象也不差,就是死黨一直太慫了,不敢去找校花,直到昨天看到校花登上了校董兒子的豪車,死黨終于徹底死心,大醉一場,作為他的兄弟,我怎么能看他郁郁不振呢?
為了讓他忘掉校花,走出陰影,我于是決定把我新收藏的網站分享給他,順便分享給大家,純純的交流技術,大家備好紙巾,不對,備好紙筆??

效果如下


爬取目標
網址:(實在是不敢放,滿滿的求生欲,官方大佬手下留情)

兄弟們啊,不要怪我,不打碼不行啊,我是來交流技術的,
要用的工具
軟體:
python 3.8
pycharm 2021專業版
模塊:
requests
parsel
沒有模塊 pip 安裝模塊即可
流程決議
我們首先就是先進入到這個網址,向網站發送網路請求,
然后去拿到它的網頁源代碼資料,右鍵點擊,查看他的網頁源代碼,
我們訪問網站拿到的資料就是它,

后續的步驟我就不截圖了,可以看我視頻講解,
獲取到資料后,我們要去決議資料,篩選我們想要的內容,相冊詳情頁地址,標題等等,
然后向詳情頁發送請求并決議資料,再向圖片鏈接發送請求,獲取圖片二進制資料,最后保存圖片,
詳細步驟我都在視頻里講了,大家可以在這里看視頻講解,還有多執行緒版本
實作代碼
import requests import parsel import re import os for page in range(1, 11): print(f'==================正在爬取第{page}頁==================') # 1.向目標網站發送請求(get,post) response = requests.get(f'https://www.網站不提供,想用來實踐技術的話可以私我拿.com/page/{page}') # 2. 獲取資料(網頁源代碼) data_html = response.text # 3. 決議網頁(re正則運算式,css選擇器,xpath,bs4,json) 提取每一個詳情頁的鏈接與標題 zip_data = https://www.cnblogs.com/hahaa/archive/2022/02/16/re.findall('<a href="https://www.cnblogs.com/hahaa/archive/2022/02/16/(.*?)" target="_blank"rel="bookmark">(.*?)</a>', data_html) for url, title in zip_data: print(f'----------------正在爬取{title}----------------') if not os.path.exists('img/' + title): os.mkdir('img/' + title) # 4. 向詳情頁發送請求 resp = requests.get(url) # 5. 獲取資料(網頁源代碼) url_data =https://www.cnblogs.com/hahaa/archive/2022/02/16/ resp.text # 6. 決議網頁 (提取圖片鏈接) selector = parsel.Selector(url_data) img_list = selector.css('p>img::attr(src)').getall() for img in img_list: # 7. 向圖片鏈接發送請求 # 8. 獲取資料(圖片二進制資料) img_data =https://www.cnblogs.com/hahaa/archive/2022/02/16/ requests.get(img).content # 9. 保存資料 img_name = img.split('/')[-1] with open(f"img/{title}/{img_name}", mode='wb') as f: f.write(img_data) print(img_name, '爬取成功!!!') print(title,'爬取成功!!!')
#兄弟們學習python,有時候不知道怎么學,從哪里開始學,掌握了基本的一些語法或者做了兩個案例后,不知道下一步怎么走,不知道如何去學習更加高深的知識, #那么對于這些大兄弟們,我準備了大量的免費視頻教程,PDF電子書籍,以及視頻源的源代碼! #還會有大佬解答! #都在這個群里了 924040232 #歡迎加入,一起討論 一起學習!
暗戀單戀都不可靠,還是要膽大臉皮厚,主動一點到手了才有結果,不然女朋友都是別人的了,祝大家有情人終成眷屬,沒有的2022年那必有!

歡迎大家一起在評論中討論技術,編程嘛,不能一味死板,要靈活有趣才有動力,不低俗不違法,一起進步!
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/424911.html
標籤:其他
