前言
嗨嘍,大家好呀~這里是愛看美女的茜茜吶
又到了學Python時刻~
我又來了!今天整個好玩的,你們肯定喜歡~
咱們上班累了,不得好好犒勞一下自己,是吧 !
于是我整了一手采集附近洗jio的店子,浴皇大帝們,沖鴨~
話不多說,沖!兄弟們,都是正規的 正規的!
使用環境
-
python 3.8 解釋器
-
pycharm 編輯器
用的大多數的知識點 都是屬于基礎的知識點內容,以及pa chong基礎入門一些知識點,
要用的模塊
-
requests >>> pip install requests 第三方模塊 需要大家去安裝
-
csv
win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你覺得安裝速度比較慢, 你可以切換國內鏡像源)
基本思路,
資料來源分析
我們不管是采集什么,都要先找到資料來源,有來源才有下一步的行動,
-
確定我們要采集得資料內容是什么?
店鋪基本資料資訊
-
通過開發者工具進行抓包分析 分析資料從哪里可以獲取
從第一頁資料進行分析的
代碼流程步驟
有了來源目標之后,再請求獲取資料,決議資料,最后創建檔案夾保存到Excel表格,
當然,如果想采集更多的,肯定就得實作自動翻頁
-
發送請求, 對于店鋪資訊資料包url地址發送請求
-
獲取資料, 獲取服務器回傳的response回應資料
-
決議資料, 提取我們想要的一些資料內容 (店鋪資訊)
-
保存資料, 把相應的資料內容保存csv表格里面
-
多頁采集:多頁采集資料內容
代碼展示
不限正規足浴,其實想采集啥都行,
import requests import pprint import re import csv import time f = open('按摩data.csv', mode='a', encoding='utf-8', newline='') csv_writer = csv.DictWriter(f, fieldnames=[ '店鋪名稱', '人均消費', '店鋪評分', '評論人數', '所在商圈', '店鋪型別', '店鋪地址', '聯系方式', '營業時間', '詳情頁', ]) csv_writer.writeheader() def get_shop_info(html_url): headers = { 'Cookie': '', 'Host': '', 'Referer': '', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36', } response = requests.get(url=html_url, headers=headers) # print(response.text) phone = re.findall('"phone":"(.*?)"', response.text)[0] openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\\n', '') address = re.findall('"address":"(.*?)"', response.text)[0] shop_info = [address, phone, openTime] # print(shop_info) return shop_info for page in range(0, 1537, 32): time.sleep(2) url = '' data = { 'uuid': '05f4abe326934bf19027.1634911815.1.0.0', 'userid': '266252179', 'limit': '32', 'offset': page, 'cateId': '-1', 'q': '按摩', 'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g' } headers = { 'Referer': '', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url=url, params=data, headers=headers) result = response.json()['data']['searchResult'] for index in result: shop_id = index['id'] index_url = f'https://www..com/meishi/{shop_id}/' shop_info = get_shop_info(index_url) dit = { '店鋪名稱': index['title'], '人均消費': index['avgprice'], '店鋪評分': index['avgscore'], '評論人數': index['comments'], '所在商圈': index['areaname'], '店鋪型別': index['backCateName'], '店鋪地址': shop_info[0], '聯系方式': shop_info[1], '營業時間': shop_info[2], '詳情頁': index_url, } csv_writer.writerow(dit) print(dit)
因為代碼里有鏈接,不給過的,所以我把代表性的網址那里刪掉了一部分,你們可以自行添加
?? ?? ?? 更多精彩機密、教程,盡在下方,趕緊點擊了解吧~
小伙伴們在學習Python的程序中,有時候不知道怎么學,從哪里開始學,
那么對于這些大兄弟們,我準備了大量的免費視頻教程,數百本PDF電子書籍,以及各種案例源代碼!
==原始碼、資料點擊 藍色字體 自取== ,我都放在這里了,
寧外給大家推薦一個好的教程:
【48小時搞定全套教程!你和大佬只有一步之遙【python教程】
尾語 ??
今天的分享,差不多就結束了
可以先收藏 ?,再學習,畢竟一一下子學會,確實有點難為人~
躲起來的星星??也在努力發光,你也要努力加油(讓我們一起努力叭),
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/531906.html
標籤:其他
