前言

本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理

以下文章來源于啤酒就辣條，作者啤酒就辣條

一、網頁分析

爬取貝殼網石家莊二手房資訊，先打開鏈接

https://sjz.ke.com/ershoufang/，

不添加篩選條件，發現總共有42817套房子，我們點擊第二頁，再查看鏈接變成了https://sjz.ke.com/ershoufang/pg2/，所以，可發現/pg{i}，i就是頁碼，

所以最多可爬取3000套房產資訊，距離上面給出的4萬多差的還很遠，于是嘗試把pg{i}的那個i人為改變一下，點擊回車請求一下，

回傳房產資訊資料都一樣，都是第100頁的資訊，于是乎，得出結論，通過貝殼網web端，查看某一條件下的房產資訊，最多可以查看3000套，

所以呢，我們增加一些條件，比如，滿五唯一，2室的，請求之~

發現鏈接變成了https://sjz.ke.com/ershoufang/pg2mw1l2/，mw1l2這個玩意應該篩選條件，看到只有2399套，歐克，咱們就爬它了，

二、擼起袖子寫代碼

麻雀雖小五臟俱全，本爬蟲設計三個部分，爬取，決議，儲存，

爬取

爬取利用requests庫，比python內置庫urllib要好用很多，

import requests

def get_a_page(url):
    result = requests.get(url)
    print(result.text)
    
if __name__ == '__main__':
    for i in range(1, 101):
        get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

for回圈列印回傳資料，發現沒問題，其實i回圈到81就好了，畢竟咱們知道了，只有不到2400套嘛，

決議

決議使用pyquery ，這個庫使用起來類似于Jquery，完整API，https://pythonhosted.org/pyquery/api.html，還有一個決議庫`bs4，下次再嘗試，

在這里插入圖片描述

發現讀取如圖所示ul里面一個div就可以拿到我們想要的資料，

import requests
from pyquery import PyQuery as pq
import json

def get_a_page(url):
    result = requests.get(url)
    doc = pq(result.text) 
    ul = doc('.sellListContent')
    divs = ul.children('.clear .info.clear').items()
    for div in divs:
        count += 1
        title = div.children('.title a').text()
        place = div.children('.address .flood .positionInfo a').text()
        msg = div.children('.address .houseInfo').text()
        price = div.children('.address .priceInfo .totalPrice span').text()
        per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')
        dict = {
            'title': title,
            'place': place,
            'msg': msg,
            'price': price,
            'per_meter': per_meter
        }
        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

代碼如上，pyquery 的children方法是查找子標簽，find方法是找子孫標簽，此處我們只需要找下一代就好，然后通過text找到標簽所包含的文本，attr是獲取屬性內容的，因為那個per_meter從屬性中獲取比較簡單，標簽中的內容還包含了“元/平米”，

儲存

本次我們直接儲存到csv中，一種類似于excel的檔案格式，利用的是pandas庫，

完整代碼如下：

import requests
from pyquery import PyQuery as pq
import json
import pandas as pd

columns = ['title', 'msg', 'price', 'per_meter']

# 爬取某網頁
def get_a_page(url):
    result = requests.get(url)
    doc = pq(result.text)
    ul = doc('.sellListContent')
    divs = ul.children('.clear .info.clear').items()
    count = 0
    titles = []
    places = []
    msgs = []
    prices = []
    per_meters = []
    for div in divs:
        count += 1
        title = div.children('.title a').text()
        place = div.children('.address .flood .positionInfo a').text()
        msg = div.children('.address .houseInfo').text()
        price = div.children('.address .priceInfo .totalPrice span').text()
        per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')
        dict = {
            'title': title,
            'place': place,
            'msg': msg,
            'price': price,
            'per_meter': per_meter
        }
        titles.append(title)
        places.append(place)
        msgs.append(msg)
        prices.append(price)
        per_meters.append(per_meter)
        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))
    datas={
        'title': titles,
        'place': places,
        'msg': msgs,
        'price': prices,
        'per_meter': per_meters
    }
    df = pd.DataFrame(data=https://www.cnblogs.com/hhh188764/p/datas, columns=columns)
    df.to_csv('sjz.csv', mode='a', index=False, header=False)

if __name__ == '__main__':
    for i in range(1, 101):
        get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

多行程

由于get_a_page函式要運行100次，有點小慢，所以利用多行程加快速度，這部分代碼，請直接copy，

將主函式改成如下所示

from multiprocessing.pool import Pool

if __name__ == '__main__':
    pool = Pool(5)
    group = ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/'for x in range(1, 101)])
    pool.map(get_a_page,group)
    pool.close()
    pool.join()

三、結束

查看下效果：

效果還可以，有人會說，為什么不把msg資訊拆分一下，分別儲存樓層、幾室幾廳、建筑年代等等多好，剛開始，我是那么做的，結果發現這個msg資料那幾項不是必填項，有的建筑年代、樓層什么的房主不填寫，索性就整個拿過來了，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/195942.html

標籤：Python

上一篇：雙十一的貓幣它又來了，Python制作自動點金幣腳本

下一篇：王者榮耀五周年，爬取102個英雄+326款皮膚，分析上線時間

Python爬蟲實戰：爬取貝殼網二手房40000條資料

前言

一、網頁分析

二、擼起袖子寫代碼

爬取

決議

儲存

多行程

三、結束