前言
在招聘資訊上,會提及作業的職位,不過大多描述是籠統的,還需要我們去了解作業的具體內容和性質,要知道,在不同的公司,同樣的職位做的事情也是不一樣的,作業方法更是大相徑庭,所以,要盡可能詳細地了解你所投遞的職位的具體作業內容、要求,在了解清楚一切后,才能判斷出這個職位是否與你的專業、能力、興趣等相契合,
拉勾招聘是專業的互聯網求職招聘平臺,致力于提供真實可靠的互聯網招聘求職找作業資訊,
今天我們一起使用 python 采集拉鉤的 python 招聘資訊,分析一下找到高薪作業需要掌握哪些技術,
開發環境:
1. 解釋器: Python 3.6.5 | Anaconda, Inc.
2. 編輯器: pycharm 社區版
然后信心滿滿的 ennn 翻車了
不怕,再來!!!
步驟
匯入模塊:
import requests import pprint
正常的情況下,確定爬取的url路徑,headers引數就行了,但是有反爬
加上防盜鏈,Origin,Host引數,還是不行,所以可能就是Cookie的問題了,
還要構建 ip 池
代碼如下
def get_cookie(): # 獲取服務器回傳的 cookie url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' response = requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36' }) # 我想要的是 cookie return response.cookies url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false' data = { 'first': True, 'pn': 1, 'kd': 'python', 'sid': "" } # ip 池 cookie 池 # 請求獲取 cookie headers = { 'Host': 'www.lagou.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36', 'Origin': 'https://www.lagou.com', 'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=', } # 找 cookie 生成 # 正常情況下 response = requests.post(url, data=https://www.cnblogs.com/hhh188764/p/data, headers=headers, cookies=get_cookie()) data = response.json()
我們的需求是獲取招聘的資訊
'city': 城市
'companyFullName': 公司名
'companySize': 公司規模
'education': 學歷
'positionName': 職位名稱
'salary': 薪資
'workYear': 作業時間
results = data['content']['positionResult']['result'] for r in results: d = { 'city': r['city'], 'companyFullName': r['companyFullName'], 'companySize': r['companySize'], 'education': r['education'], 'positionName': r['positionName'], 'salary': r['salary'], 'workYear': r['workYear'] }
把爬取的資訊寫入CSV檔案
pprint.pprint(d) with open('拉鉤職位資訊.csv', mode='a', encoding='utf-8') as f: values = d.values() f.write(",".join(values)) f.write('\n')
寫完代碼,運行后結果如下圖
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/137138.html
標籤:Python
上一篇:06.Django-快取
