主頁 > 後端開發 > python協程總學不會?不可能的,邊學協程邊采集Coser圖吧!

python協程總學不會?不可能的,邊學協程邊采集Coser圖吧!

2021-10-19 09:18:20 後端開發

python 中協程概念是從 3.4 版本增加的,但 3.4 版本采用是生成器實作,為了將協程和生成器的使用場景進行區分,使語意更加明確,在 python 3.5 中增加了 asyncawait 關鍵字,用于定義原生協程,

asyncio 異步 I/O 庫

python 中的 asyncio 庫提供了管理事件、協程、任務和執行緒的方法,以及撰寫并發代碼的原語,即 asyncawait

該模塊的主要內容:

  • 事件回圈event_loop,管理所有的事件,是一個無限回圈方法,在回圈程序中追蹤事件發生的順序將它們放在佇列中,空閑時則呼叫相應的事件處理者來處理這些事件;
  • 協程coroutine,子程式的泛化概念,協程可以在執行期間暫停,等待外部的處理(I/O 操作)完成之后,再從暫停的地方繼續運行,函式定義式使用 async 關鍵字,這樣這個函式就不會立即執行,而是回傳一個協程物件;
  • FutureTaskFuture 物件表示尚未完成的計算,TaskFuture 的子類,包含了任務的各個狀態,作用是在運行某個任務的同時可以并發的運行多個任務,

異步函式的定義

異步函式本質上依舊是函式,只是在執行程序中會將執行權交給其它協程,與普通函式定義的區別是在 def 關鍵字前增加 async

# 異步函式
import asyncio


# 異步函式
async def func(x):
    print("異步函式")
    return x ** 2


ret = func(2)
print(ret)

運行代碼輸入如下內容:

sys:1: RuntimeWarning: coroutine 'func' was never awaited
<coroutine object func at 0x0000000002C8C248>

函式回傳一個協程物件,如果想要函式得到執行,需要將其放到事件回圈 event_loop 中,

事件回圈 event_loop

event_loopasyncio 模塊的核心,它將異步函式注冊到事件回圈上,
程序實作方式為:由 loop 在適當的時候呼叫協程,這里使用的方式名為 asyncio.get_event_loop(),然后由 run_until_complete(協程物件) 將協程注冊到事件回圈中,并啟動事件回圈,

import asyncio


# 異步函式
async def func(x):
    print("異步函式")
    return x ** 2


# 協程物件,該物件不能直接運行
coroutine1 = func(2)

# 事件回圈物件
loop = asyncio.get_event_loop()
# 將協程物件加入到事件回圈中,并執行
ret = loop.run_until_complete(coroutine1)
print(ret)

首先在 python 3.7 之前的版本中使用異步函式是安裝上述流程:

  1. 先通過 asyncio.get_event_loop() 獲取事件回圈 loop 物件;
  2. 然后通過不同的策略呼叫 loop.run_until_complete() 或者 loop.run_forever() 執行異步函式,

在 python 3.7 之后的版本,直接使用 asyncio.run() 即可,該函式總是會創建一個新的事件回圈并在結束時進行關閉,

最新的官方檔案 都采用的是 run 方法,
官方案例

import asyncio


async def main():
    print('hello')
    await asyncio.sleep(1)
    print('world')


asyncio.run(main())

接下來在查看一個完整的案例,并且結合 await 關鍵字,

import asyncio
import time


# 異步函式1
async def task1(x):
    print("任務1")
    await asyncio.sleep(2)
    print("恢復任務1")
    return x


# 異步函式2
async def task2(x):
    print("任務2")
    await asyncio.sleep(1)
    print("恢復任務2")
    return x


async def main():
    start_time = time.perf_counter()
    ret_1 = await task1(1)
    ret_2 = await task2(2)
    print("任務1 回傳的值是", ret_1)
    print("任務2 回傳的值是", ret_2)
    print("運行時間", time.perf_counter() - start_time)


if __name__ == '__main__':
	# 創建一個事件回圈
    loop = asyncio.get_event_loop()
    # 將協程物件加入到事件回圈中,并執行
    loop.run_until_complete(main())

代碼輸出如下所示:

任務1
恢復任務1
任務2
恢復任務2
任務1 回傳的值是 1
任務2 回傳的值是 2
運行時間 2.99929154

上述代碼創建了 3 個協程,其中 task1task2 都放在了協程函式 main 中,I/O 操作通過 asyncio.sleep(1) 進行模擬,整個函式運行時間為 2.9999 秒,接近 3 秒,依舊是串行進行,如果希望修改為并發執行,將代碼按照下述進行修改,

import asyncio
import time


# 異步函式1
async def task1(x):
    print("任務1")
    await asyncio.sleep(2)
    print("恢復任務1")
    return x


# 異步函式2
async def task2(x):
    print("任務2")
    await asyncio.sleep(1)
    print("恢復任務2")
    return x


async def main():
    start_time = time.perf_counter()
    ret_1,ret_2 = await asyncio.gather(task1(1),task2(2))

    print("任務1 回傳的值是", ret_1)
    print("任務2 回傳的值是", ret_2)
    print("運行時間", time.perf_counter() - start_time)


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

上述代碼最大的變化是將 task1task2 放到了 asyncio.gather() 中運行,此時代碼輸出時間明顯變短,

任務1
任務2
恢復任務2 # 任務2 由于等待時間短,先回傳,
恢復任務1
任務1 回傳的值是 1
任務2 回傳的值是 2
運行時間 2.0005669480000003

asyncio.gather() 可以更換為 asyncio.wait() ,修改代碼如下所示:

import asyncio
import time


# 異步函式1
async def task1(x):
    print("任務1")
    await asyncio.sleep(2)
    print("恢復任務1")
    return x


# 異步函式2
async def task2(x):
    print("任務2")
    await asyncio.sleep(1)
    print("恢復任務2")
    return x


async def main():
    start_time = time.perf_counter()
    done, pending = await asyncio.wait([task1(1), task2(2)])
    print(done)
    print(pending)

    print("運行時間", time.perf_counter() - start_time)


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

asyncio.wait() 回傳一個元組,其中包含一個已經完成的任務集合,一個未完成任務的集合,

gather 和 wait 的區別

  • gather:需要所有任務都執行結束,如果任意一個協程函式崩潰了,都會拋例外,不會回傳結果;
  • wait:可以定義函式回傳的時機,可以設定為 FIRST_COMPLETED (第一個結束的), FIRST_EXCEPTION(第一個出現例外的), ALL_COMPLETED(全部執行完,默認的),
done,pending = await asyncio.wait([task1(1),task2(2)],return_when=asyncio.tasks.FIRST_EXCEPTION)

創建 task

由于協程物件不能直接運行,在注冊到事件回圈時,是 run_until_complete 方法將其包裝成一個 task 物件,該物件是對 coroutine 物件的進一步封裝,它比 coroutine 物件多了運行狀態,例如 pendingrunningfinished,可以利用這些狀態獲取協程物件的執行情況,

下面顯示的將 coroutine 物件封裝成 task 物件,在上述代碼基礎上進行修改,

import asyncio
import time


# 異步函式1
async def task1(x):
    print("任務1")
    await asyncio.sleep(2)
    print("恢復任務1")
    return x


# 異步函式2
async def task2(x):
    print("任務2")
    await asyncio.sleep(1)
    print("恢復任務2")
    return x


async def main():
    start_time = time.perf_counter()
    # 封裝 task 物件
    coroutine1 = task1(1)
    task_1 = loop.create_task(coroutine1)
    coroutine2 = task2(2)
    task_2 = loop.create_task(coroutine2)
    ret_1, ret_2 = await asyncio.gather(task_1, task_2)

    print("任務1 回傳的值是", ret_1)
    print("任務2 回傳的值是", ret_2)
    print("運行時間", time.perf_counter() - start_time)


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

由于 task 物件是 future 物件的子類物件,所以上述代碼也可以按照下述內容修改:

# task_2 = loop.create_task(coroutine2)
task_2 = asyncio.ensure_future(coroutine2)

下面將 task 物件的各個狀態進行列印輸出,

import asyncio
import time


# 異步函式1
async def task1(x):
    print("任務1")
    await asyncio.sleep(2)
    print("恢復任務1")
    return x


# 異步函式2
async def task2(x):
    print("任務2")
    await asyncio.sleep(1)
    print("恢復任務2")
    return x


async def main():
    start_time = time.perf_counter()
    # 封裝 task 物件
    coroutine1 = task1(1)
    task_1 = loop.create_task(coroutine1)
    coroutine2 = task2(2)
    # task_2 = loop.create_task(coroutine2)
    task_2 = asyncio.ensure_future(coroutine2)
    # 進入 pending 狀態
    print(task_1)
    print(task_2)

    # 獲取任務的完成狀態
    print(task_1.done(), task_2.done())
    # 執行任務
    await task_1
    await task_2
    # 再次獲取完成狀態
    print(task_1.done(), task_2.done())

    # 獲取回傳結果
    print(task_1.result())
    print(task_2.result())

    print("運行時間", time.perf_counter() - start_time)


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

await task_1 表示的是執行該協程,執行結束之后,task.done() 回傳 Truetask.result() 獲取回傳值,

回呼回傳值

當協程執行完畢,需要獲取其回傳值,剛才已經演示了一種辦法,使用 task.result() 方法獲取,但是該方法僅當協程運行完畢時,才能獲取結果,如果協程沒有運行完畢,result() 方法會回傳 asyncio.InvalidStateError(無效狀態錯誤),

一般編碼都采用第二種方案,通過 add_done_callback() 方法系結回呼,

import asyncio
import requests


async def request_html():
    url = 'https://www.csdn.net'
    res = requests.get(url)
    return res.status_code


def callback(task):
    print('回呼:', task.result())


loop = asyncio.get_event_loop()

coroutine = request_html()
task = loop.create_task(coroutine)
# 系結回呼
task.add_done_callback(callback)
print(task)
print("*"*100)

loop.run_until_complete(task)
print(task)

上述代碼當 coroutine 執行完畢時,會呼叫 callback 函式,

如果回呼函式需要多個引數,請使用 functools 模塊中的偏函式(partial)方法

回圈事件關閉

建議每次編碼結束之后,都呼叫回圈事件物件 close() 方法,徹底清理 loop 物件,

本節課爬蟲專案

本節課要采集的站點由于全部都是 coser 圖片,所以地址在代碼中查看即可,
完整代碼如下所示:

import threading
import asyncio
import time
import requests
import lxml
from bs4 import BeautifulSoup


async def get(url):
    return requests.get(url)


async def get_html(url):
    print("準備抓取:", url)
    res = await get(url)
    return res.text


async def save_img(img_url):
    # thumbMid_5ae3e05fd3945 將小圖替換為大圖
    img_url = img_url.replace('thumb','thumbMid')
    img_url = "http://mycoser.com/" + img_url
    print("圖片下載中:", img_url)
    res = await get(img_url)
    if res is not None:
        with open(f'./imgs/{time.time()}.jpg', 'wb') as f:
            f.write(res.content)
            return img_url,"ok"


async def main(url_list):
    # 創建 5 個任務
    tasks = [asyncio.ensure_future(get_html(url_list[_])) for _ in range(len(url_list))]

    dones, pending = await asyncio.wait(tasks)
    for task in dones:
        html = task.result()
        soup = BeautifulSoup(html, 'lxml')
        divimg_tags = soup.find_all(attrs={'class': 'workimage'})

        for div in divimg_tags:
            ret = await save_img(div.a.img["data-original"])
            print(ret)


if __name__ == '__main__':
    urls = [f"http://mycoser.com/picture/lists/p/{page}" for page in range(1, 17)]
    totle_page = len(urls) // 5 if len(urls) % 5 == 0 else len(urls) // 5 + 1
    # 對 urls 串列進行切片,方便采集
    for page in range(0, totle_page):
        start_page = 0 if page == 0 else page * 5
        end_page = (page + 1) * 5

        # 回圈事件物件
        loop = asyncio.get_event_loop()

        loop.run_until_complete(main(urls[start_page:end_page]))

代碼說明
上述代碼中第一個要注意的是 await 關鍵字后面只能跟如下內容:

  • 原生的協程物件;
  • 一個包含 await 方法的物件回傳的一個迭代器,

所以上述代碼 get_html 函式中嵌套了一個協程 get,主函式 main 里面為了運算方便,直接對 urls 進行了切片,然后通過回圈進行運行,

當然上述代碼的最后兩行,可以直接修改為:

 # 回圈事件物件
 # loop = asyncio.get_event_loop()
 #
 # loop.run_until_complete(main(urls[start_page:end_page]))
 asyncio.run(main(urls[start_page:end_page]))

輕松獲取一堆高清圖片,
python爬蟲,python入門教程

寫在后面

協程掌握了,python 爬蟲之路就開啟了,

今天是持續寫作的第 242 / 365 天,
期待 關注點贊評論收藏

更多精彩

《爬蟲 100 例,專欄銷售中,買完就能學會系列專欄》
全程干貨,用 python 下載某站全部【免摳圖片】,圖片背景透明,格式PNG

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/323455.html

標籤:python

上一篇:Python表白代碼:“ 星光月夜煙花皆歸你,我也歸你”!(滿天煙花盛開??附番外玫瑰)

下一篇:Matlab-將矩陣與矩陣向量相乘

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more