有人問我為什么學Python爬蟲，那是因為我喜歡小姐姐-有解無憂

百度性感美女壁紙了解一下，不為別的，是為了能更好的學習Python！我這樣說你們信嗎？

只要看到有妹子的照片的網站，我就是想要批量下載一下！

為什么要學網路爬蟲
(1) 學習網路爬蟲，可以私人定制一個搜索引擎，更好地理解資料采集原理
(2) 為大資料分析提供更多高質量的資料源，獲取更多有價值的資訊
(3) 可以更深層次地理解搜索引擎爬蟲的作業原理，從而可以更好地進行搜索引擎優化
(4) 從就業角度來說，爬蟲工程師也是緊缺的人才，學習網路爬蟲對就業來說非常有利

大互聯網公司
我原來在互聯網公司，覺得獲取資料so easy，只要你需要，好像各種資料都有，資料多到必須把一些不是很重要的的資料按期老化掉，不重要的資料不接受，

傳統行業和小公司
離開大互聯網公司后，接觸的公司也比較多了，原來很多公司都沒有資料，但是還是想搞大資料，我原來也是不理解，你沒資料搞啥大資料嗎？這不是讓馬兒跑，還不給馬兒草么，
但是，現在我不這樣想了，在大資料的熱潮下，大家都怕錯過這個風口，所以必須參加進來；再大資料對傳統行業的改變，大家也有目共睹，比如uber對打車的改變，余額寶對金融的改變等，所以我們需要想辦法獲取資料，而不是沒有資料我們就不搞大資料了，

資料來源
一方面，使自己的產品互聯網化，資料可以積累起來，但是路程漫長，
另一方面，從互聯網中獲取資料，但是互聯網中的資料又不開放，那么爬蟲就派上用場了，而且還可以快速獲取資料，

專題主要內容
爬蟲技術交流

資料分享

給代碼給代碼好東西必須分享大家一起享受！

 1 這里給大家分享一套系統Python學習教程資源
 2 加一下我建的Python技術的學習扣裙；九三七六六七五零九，一起學習
 3 # !/usr/bin/env python
 4 # -*- coding:utf-8 -*-
 5 import requests
 6 import json
 7 # 定義一個請求函式,接收頁面引數
 8 def get_page(page):
 9     # 把頁面引數添加在url的字串當中
10     url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=美女&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=美女&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={}&rn=30&gsm=1e'.format(
11         page)
12     # 請求網站,并且得到網站的回應
13     response = requests.get(url)
14     # 判斷狀態的狀況
15     if response.status_code == 200:
16         # 回傳文本檔案資訊
17         return response.text
18 def json_load(text):
19     # 把文本檔案處理成字典格式
20     jsondict = json.loads(text)
21     # 創建一個空的合集,作用是去重
22     urlset = set()
23     # 檢查字典里面是否包含了data這個值
24     if 'data' in jsondict.keys():
25         # 從jsondict中取出data這個字典里面的東西,依次賦值給items!
26         for items in jsondict.get('data'):
27             # 例外處理,不是每一行資料都包含thumbURL這個資料的
28             try:
29                 urlset.add(items['thumbURL'])
30             except:
31                 pass
32     return urlset
33 def down_cont(url):
34     response = requests.get(url)
35     name = url.split(',')[-1].split('&')[0]
36     if response.status_code == 200:
37         # 表示,如果檔案名字相同,就洗掉當前檔案,然后再創建一個一樣名字的檔案
38         with open('./images/%s.jpg' % name, 'wb') as f:
39             print('正在下載當前圖片: ' + url)
40             # 以二進制的方法寫入到本地
41             f.write(response.content)
42 def main():
43     for p in range(5):
44         print('正在下載 %s頁 的圖片' % p)
45         page = p * 30
46         text = get_page(page)
47         urlset = json_load(text)
48         for url in urlset:
49             down_cont(url)
50 if __name__ == '__main__':
51     main()

運行效果圖

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/116838.html

標籤：Python

上一篇：09.DRF-ModelSerializer

下一篇：numpy中基本運算函式