主頁 > 後端開發 > Python多執行緒爬取鏈家房源,保存表格,實作資料可視化分析!

Python多執行緒爬取鏈家房源,保存表格,實作資料可視化分析!

2023-05-16 18:18:36 後端開發

使用Python來爬取二手房源資料,并保存表格,實作資料分析!

軟體環境

Python 3.8

Pycharm

代碼展示

模塊

# 資料請求模塊 --> 第三方模塊, 需要安裝 pip install requests
import requests
# 決議資料模塊 --> 第三方模塊, 需要安裝 pip install parsel
import parsel
# csv模塊
import csv

 

創建檔案

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '標題',
    '小區',
    '區域',
    '售價',
    '單價',
    '戶型',
    '面積',
    '朝向',
    '裝修',
    '樓層',
    '年份',
    '建筑型別',
    '詳情頁',
])
csv_writer.writeheader()

 

發送請求, 模擬瀏覽器 對于 url地址 發送請求

模擬瀏覽器

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

 

請求網址/網站

url = 'https://cs.lianjia.com/ershoufang/'

# 完整原始碼,視頻講解直接+這個扣裙:279199867 免費領取

 

發送請求

response = requests.get(url=url, headers=headers)
# <Response [200]> 回應物件 200 狀態碼 表示請求成功
print(response)

 

獲取資料, 獲取網頁源代碼 <獲取服務器回傳回應資料>

決議資料, 提取我們想要的資料內容

決議方法:

  • re: 對于字串資料直接進行決議提取

  • css: 根據標簽屬性提取資料內容

  • xpath: 根據標簽節點提取資料內容

使用css: 根據標簽屬性提取資料內容

把獲取到html字串資料, 轉成可決議物件

selector = parsel.Selector(response.text)

 

獲取所有房源資訊所在li標簽

lis = selector.css('.sellListContent li.clear')

 

for回圈遍歷

for li in lis:
    """
提取具體房源資訊: 標題 / 價格 / 位置 / 戶型... .title a --> 表示定位class類名為title下面a標簽 """ title = li.css('.title a::text').get() # 標題 info_list = li.css('.positionInfo a::text').getall() area = info_list[0] # 小區名字 area_1 = info_list[1] # 地區 totalPrice = li.css('.totalPrice span::text').get() # 售價 unitPrice = li.css('.unitPrice span::text').get().replace('元/平', '').replace(',', '') # 單價 houseInfo = li.css('.houseInfo::text').get().split(' | ') # 資訊 houseType = houseInfo[0] # 戶型 houseArea = houseInfo[1].replace('平米', '') # 面積 houseFace = houseInfo[2] # 朝向 fitment = houseInfo[3] # 裝修 fool = houseInfo[4] # 樓層 if len(houseInfo) == 7 and '' in houseInfo[5]: year = houseInfo[5].replace('年建', '') else: year = '' house = houseInfo[-1] # 建筑型別 href = https://www.cnblogs.com/hahaa/p/li.css('.title a::attr(href)').get() # 詳情頁 dit = { '標題': title, '小區': area, '區域': area_1, '售價': totalPrice, '單價': unitPrice, '戶型': houseType, '面積': houseArea, '朝向': houseFace, '裝修': fitment, '樓層': fool, '年份': year, '建筑型別': house, '詳情頁': href, } csv_writer.writerow(dit) print(dit) # print(title, area, area_1, totalPrice, unitPrice, houseType, houseArea, houseFace, fitment, fool, year, house, href)

 

多執行緒

匯入模塊

import requests
import parsel
import re
import csv
# 執行緒池模塊
import concurrent.futures
import time

 

發送請求函式

def get_response(html_url):

:param html_url:
:return:
"""
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
}
response = requests.get(url=html_url, headers=headers)
return response

 

獲取資料函式

def get_content(html_url):
    """
    :param html_url:
    :return:
    """
    response = get_response(html_url)
    html_data = get_response(link).text
    selector = parsel.Selector(response.text)
    select = parsel.Selector(html_data)
    lis = selector.css('.sellListContent li')
    content_list = []
    for li in lis:

        title = li.css('.title a::text').get()  # 標題
        area = '-'.join(li.css('.positionInfo a::text').getall())  # 小區
        Price = li.css('.totalPrice span::text').get()  # 總價
        Price_1 = li.css('.unitPrice span::text').get().replace('元/平', '')  # 單價
        houseInfo = li.css('.houseInfo::text').get()  # 資訊
        HouseType = houseInfo.split(' | ')[0]  # 戶型
        HouseArea = houseInfo.split(' | ')[1].replace('平米', '')  # 面積
        direction = houseInfo.split(' | ')[2].replace(' ', '')  # 朝向
        renovation = houseInfo.split(' | ')[3]  # 裝修
        floor_info = houseInfo.split(' | ')[4]
        floor = floor_info[:3]  # 樓層
        floor_num = re.findall('(\d+)層', floor_info)[0]  # 層數
        BuildingType = houseInfo.split(' | ')[-1]
        string = select.css('.comments div:nth-child(7) .comment_text::text').get()
        href = li.css('.title a::attr(href)').get()  # 詳情頁
        if len(houseInfo.split(' | ')) == 6:
            date = 'None'
        else:
            date = houseInfo.split(' | ')[5].replace('年建', '')  # 日期
        print(string)
        dit = {
            '標題': title,
            '內容': string,
            '小區': area,
            '總價': Price,
            '單價': Price_1,
            '戶型': HouseType,
            '面積': HouseArea,
            '朝向': direction,
            '裝修': renovation,
            '樓層': floor,
            '層數': floor_num,
            '建筑日期': date,
            '建筑型別': BuildingType,
            '詳情頁': href,
        }
        content_list.append(dit)
    return content_list

 

主函式

def main(page):
    """
    :param page:
    :return:
    """
    print(f'===============正在采集第{page}頁的資料內容===============')
    url = f'https:///ershoufang/yuelu/p{page}/'
    content_list = get_content(html_url=url)
    for content in content_list:
        csv_writer.writerow(content)


if __name__ == '__main__':
    time_1 = time.time()
    link = 'http://******/article/149'
    # 創建檔案
    f = open('data多執行緒.csv', mode='a', encoding='utf-8', newline='')
    csv_writer = csv.DictWriter(f, fieldnames=[
        '標題',
        '內容',
        '小區',
        '總價',
        '單價',
        '戶型',
        '面積',
        '朝向',
        '裝修',
        '樓層',
        '層數',
        '建筑日期',
        '建筑型別',
        '詳情頁',
    ])
    csv_writer.writeheader()

    # 執行緒池執行器 max_workers 最大執行緒數
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=10)
    for page in range(1, 11):
        exe.submit(main, page)
    exe.shutdown()
    time_2 = time.time()
    use_time = int(time_2 - time_1)
    # 總計耗時: 9
    print('總計耗時:', use_time)

 

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/552610.html

標籤:Python

上一篇:python 基礎教程:使用jieba庫對文本進行分詞

下一篇:返回列表

標籤雲
其他(159131) Python(38142) JavaScript(25431) Java(18048) C(15227) 區塊鏈(8267) C#(7972) AI(7469) 爪哇(7425) MySQL(7191) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4572) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1975) 功能(1967) Web開發(1951) HtmlCss(1937) python-3.x(1918) C++(1917) 弹簧靴(1913) xml(1889) PostgreSQL(1877) .NETCore(1861) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Python多執行緒爬取鏈家房源,保存表格,實作資料可視化分析!

    使用Python來爬取二手房源資料,并保存表格,實作資料分析! 軟體環境 Python 3.8 Pycharm 代碼展示 模塊 # 資料請求模塊 --> 第三方模塊, 需要安裝 pip install requests import requests # 決議資料模塊 --> 第三方模塊, 需要安裝 ......

    uj5u.com 2023-05-16 18:18:36 more
  • python 基礎教程:使用jieba庫對文本進行分詞

    一、jieba庫是什么? Python的jieba庫是一個中文分詞工具,它可以將一段中文文本分割成一個一個的詞語,方便后續的自然語言處理任務,如文本分類、情感分析等。jieba庫使用了基于前綴詞典的分詞方法,能夠處理中文的各種復雜情況,如歧義詞、新詞等。它還提供了多種分詞模式,如精確模式、全模式、搜 ......

    uj5u.com 2023-05-16 18:18:18 more
  • Python從零到壹丨詳解影像銳化Roberts、Prewitt算子實作邊緣檢測

    摘要:影像銳化和邊緣提取技術可以消除影像中的噪聲,提取影像資訊中用來表征影像的一些變數,為影像識別提供基礎。本章主要介紹Robert算子、Prewitt算子、Sobel算子、Laplacian算子、Scharr算子等。 本文分享自華為云社區《[Python從零到壹] 五十七.影像增強及運算篇之影像銳 ......

    uj5u.com 2023-05-16 18:17:27 more
  • Celery入坑記錄

    1. 前言 最近需要用到Celery,初步學習了一下,但是遇到了一些問題,被搞的心力交瘁。。。,在此記錄下。 環境說明:win11 + python3.11 + celery5.2.7 + redis 2. 問題 2.1 學習檔案的選擇 剛開始在Eege直接搜索celery結果排在最前面的是10年前 ......

    uj5u.com 2023-05-16 18:15:40 more
  • 裝飾器擴展類功能

    對類中屬性訪問,并修改他的行為 可以直接使用類裝飾器 """ 類裝飾器擴展 類功能 """ def log_getattribute(cls): old_getattribute = cls.__getattribute__ def new_getattribute(self, name): pri ......

    uj5u.com 2023-05-16 18:15:27 more
  • java例外處理

    java例外處理 軟體程式在運行程序中,可能出現意外(Exception),運行中不期而至的問題。 檢查性例外:用戶錯誤或問題引起的例外,程式員無法預見的 運行時例外:可能被程式員避免的例外,可以在編譯時被忽略 錯誤:錯誤不是例外,而是脫離程式員控制的問題。錯誤在代碼中通常被忽略。例如堆疊溢位 jav ......

    uj5u.com 2023-05-16 18:13:49 more
  • Spring原始碼:Bean生命周期(五)

    在今天的文章中,我們將深入探討 Bean 的屬性注入和初始化流程,從而使其成為一個真正意義上的 Bean。這個程序包括屬性注入、Aware 介面回呼、BeanPostProcessor 的前置和后置處理等多個步驟,通過本文的學習,讀者將能夠更深入地了解 Spring 框架中 Bean 的屬性注入和初... ......

    uj5u.com 2023-05-16 18:01:37 more
  • lombok.Getter cheated me

    下面這段代碼,IDE里正常顯示。不過,在build時,會報錯。 interface Doable { Integer getCode(); } @lombok.Getter class DerivedClass implements Doable { int code; } 錯誤資訊: Error: ......

    uj5u.com 2023-05-16 17:18:54 more
  • 限速神器RateLimiter原始碼決議

    作者:京東科技 李玉亮 目錄指引 限流場景 軟體系統中一般有兩種場景會用到限流: ?場景一、高并發的用戶端場景。 尤其是C端系統,經常面對海量用戶請求,如不做限流,遇到瞬間高并發的場景,則可能壓垮系統。 ?場景二、內部交易處理場景。 如某類交易任務處理時有速率要求,再如上下游呼叫時下游對上游有速率要 ......

    uj5u.com 2023-05-16 17:16:54 more
  • go多版本管理

    在日常開發作業程序中,很多時候我們都需要在自己的機器上安裝多個go版本,像是go1.16引入的embed,go1.18引入了泛型;又或是自己本地使用的是最新版,但公司的專案中使用的go1.14、go1.13甚至是更早的版本。 那么有沒有既不影響我們自己的本地環境,又能兼顧歷史專案的辦法呢?答案當然是 ......

    uj5u.com 2023-05-16 10:48:27 more