我在跟某個爬蟲視頻抄 如何 用scrapy 爬取 boss招聘網站 的崗位名稱 和 職位描述。這個網站好象更新了,所以視頻中老師的部分代碼失效了。里面有一些xpath的路徑,我做了修改。但是不知為啥,爬出來什么東西也沒有,也沒報錯。
求求路過的大神,幫忙看看,我都檢查了一天,也不知哪出錯了。下面是原始碼,我把整個工程也打包上傳到百度網盤了。
#16行,是爬取 崗位名稱
#10行,是爬取 崗位描述
#18行,是崗位描述的詳情頁
https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=%27
我猜是不是XPATH寫錯了?其它的,我都是照描視頻中老師的代碼。
import scrapy
class BossSpider(scrapy.Spider):
name = 'boss'
#allowed_domains = ['www.xxx.com']
start_urls = ['https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=']
def parse_detail(self,response):
job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
job_desc = ''.join(job_desc)
print(job_desc)
def parse(self, response):
li_list = response.xpath('//*[@id="main"]/div/div[2]/ul/li')
for li in li_list:
job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first()
print(job_name)
detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="job-title"]/span[1]/a/@href').extract_first()
yield scrapy.Request(detail_url, callback=self.parse_detail)
鏈接:https://pan.baidu.com/s/1iWJkQZgqerlFoR9rONObgQ
提取碼:1234
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/216283.html
上一篇:慢查詢的疑問及應用
下一篇:避免踩雷!校招污點公司記錄
