百度性感美女壁紙了解一下,不為別的,是為了能更好的學習Python!我這樣說你們信嗎?
只要看到有妹子的照片的網站,我就是想要批量下載一下!
為什么要學網路爬蟲
(1) 學習網路爬蟲,可以私人定制一個搜索引擎,更好地理解資料采集原理
(2) 為大資料分析提供更多高質量的資料源,獲取更多有價值的資訊
(3) 可以更深層次地理解搜索引擎爬蟲的作業原理,從而可以更好地進行搜索引擎優化
(4) 從就業角度來說,爬蟲工程師也是緊缺的人才,學習網路爬蟲對就業來說非常有利
大互聯網公司
我原來在互聯網公司,覺得獲取資料so easy,只要你需要,好像各種資料都有,資料多到必須把一些不是很重要的的資料按期老化掉,不重要的資料不接受,
傳統行業和小公司
離開大互聯網公司后,接觸的公司也比較多了,原來很多公司都沒有資料,但是還是想搞大資料,我原來也是不理解,你沒資料搞啥大資料嗎?這不是讓馬兒跑,還不給馬兒草么,
但是,現在我不這樣想了,在大資料的熱潮下,大家都怕錯過這個風口,所以必須參加進來;再大資料對傳統行業的改變,大家也有目共睹,比如uber對打車的改變,余額寶對金融的改變等,所以我們需要想辦法獲取資料,而不是沒有資料我們就不搞大資料了,
資料來源
一方面,使自己的產品互聯網化,資料可以積累起來,但是路程漫長,
另一方面,從互聯網中獲取資料,但是互聯網中的資料又不開放,那么爬蟲就派上用場了,而且還可以快速獲取資料,
專題主要內容
爬蟲技術交流
資料分享

給代碼 給代碼 好東西 必須分享 大家一起享受!
1 這里給大家分享一套系統Python學習教程資源 2 加一下我建的Python技術的學習扣裙;九三七六六七五零九,一起學習 3 # !/usr/bin/env python 4 # -*- coding:utf-8 -*- 5 import requests 6 import json 7 # 定義一個請求函式,接收頁面引數 8 def get_page(page): 9 # 把頁面引數添加在url的字串當中 10 url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=美女&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=美女&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={}&rn=30&gsm=1e'.format( 11 page) 12 # 請求網站,并且得到網站的回應 13 response = requests.get(url) 14 # 判斷狀態的狀況 15 if response.status_code == 200: 16 # 回傳文本檔案資訊 17 return response.text 18 def json_load(text): 19 # 把文本檔案處理成字典格式 20 jsondict = json.loads(text) 21 # 創建一個空的合集,作用是去重 22 urlset = set() 23 # 檢查字典里面是否包含了data這個值 24 if 'data' in jsondict.keys(): 25 # 從jsondict中取出data這個字典里面的東西,依次賦值給items! 26 for items in jsondict.get('data'): 27 # 例外處理,不是每一行資料都包含thumbURL這個資料的 28 try: 29 urlset.add(items['thumbURL']) 30 except: 31 pass 32 return urlset 33 def down_cont(url): 34 response = requests.get(url) 35 name = url.split(',')[-1].split('&')[0] 36 if response.status_code == 200: 37 # 表示,如果檔案名字相同,就洗掉當前檔案,然后再創建一個一樣名字的檔案 38 with open('./images/%s.jpg' % name, 'wb') as f: 39 print('正在下載當前圖片: ' + url) 40 # 以二進制的方法寫入到本地 41 f.write(response.content) 42 def main(): 43 for p in range(5): 44 print('正在下載 %s頁 的圖片' % p) 45 page = p * 30 46 text = get_page(page) 47 urlset = json_load(text) 48 for url in urlset: 49 down_cont(url) 50 if __name__ == '__main__': 51 main()
運行效果圖


轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/116838.html
標籤:Python
下一篇:numpy中基本運算函式
