1.傳統的Sync語法請求例子
2.異步的請求
3.基於生成器的協程
3.1生成器
3.2用生成器實現協程
在io比較多的場景中, Async
語法編寫的程序會以更少的時間, 更少的資源來完成相同的任務, 這篇文章則是介紹了Python
的Async
語法的協程是如何實現的。
還是一樣, 在了解Async
語法的實現之前, 先從一個Sync
的語法例子開始, 現在假設有一個HTTP請求, 這個程序會通過這個請求獲取對應的響應內容, 並打印出來, 代碼如下:
import socketdef request(host: str) -> None: """模擬請求並打印響應體""" url: str = f"http://{host}" sock: socket.SocketType = socket.socket() sock.connect((host, 80)) sock.send(f"GET {url} HTTP/1.0\r\nHost: {host}\r\n\r\n".encode("ascii")) response_bytes: bytes = b"" chunk: bytes = sock.recv(4096) while chunk: response_bytes += chunk chunk = sock.recv(4096) print("\n".join([i for i in response_bytes.decode().split("\r\n")]))if __name__ == "__main__": request("so1n.me")
運行程序, 程序能夠正常輸出, 上部分打印了對應的HTTP響應Header, 下部分打印了HTTP響應體, , 可以看到服務端叫我們以https的形式重新請求, 輸出結果如下:
HTTP/1.1 301 Moved PermanentlyServer: GitHub.comContent-Type: text/htmlLocation: https://so1n.me/X-GitHub-Request-Id: A744:3871:4136AF:48BD9F:6188DB50Content-Length: 162Accept-Ranges: bytesDate: Mon, 08 Nov 2021 08:11:37 GMTVia: 1.1 varnishAge: 104Connection: closeX-Served-By: cache-qpg1272-QPGX-Cache: HITX-Cache-Hits: 2X-Timer: S1636359097.026094,VS0,VE0Vary: Accept-EncodingX-Fastly-Request-ID: 22fa337f777553d33503cee5282598c6a293fb5e<html><head><title>301 Moved Permanently</title></head><body><center><h1>301 Moved Permanently</h1></center><hr><center>nginx</center></body></html>
不過這裡並不是想說HTTP請求是如何實現的, 具體我也不太了解, 在這個代碼中, socket的默認調用是阻塞的, 當線程調用connect
或者recv
時(send
是不用等待的, 但在高並發下需要先等待drain
後才可以send
, 小demo不需要用到drain
方法), 程序將會暫停直到操作完成。 當一次要下載很多網頁的話, 這將會如上篇文章所說的一樣, 大部分的等待時間都花在io上面, cpu卻一直空閒時, 而使用線程池雖然可以解決這個問題, 但是開銷是很大的, 同時操作系統往往會限制一個進程,用戶或者機器可以使用的線程數, 而協程卻沒有這些限制, 占用的資源少, 也沒有系統限制瓶頸。
異步可以讓一個單獨的線程處理並發的操作, 不過在上面已經說過了, socket是默認阻塞的, 所以需要把socket設置為非阻塞的, socket提供了setblocking
這個方法供開發者選擇是否阻塞, 在設置了非阻塞後, connect
和recv
方法也要進行更改。
由於沒有了阻塞, 程序在調用了connect
後會馬上返回, 只不過Python
的底層是C
, 這段代碼在C
中調用非阻塞的socket.connect後會拋出一個異常, 我們需要捕獲它, 就像這樣:
import socketsock: socket.SocketType = socket.socket()sock.setblocking(Flase)try: sock.connect(("so1n.me", 80))except BlockingIOError: pass
經過一頓操作後, 就開始申請建立連接了, 但是我們還不知道連接啥時候完成建立, 由於連接沒建立時調用send
會報錯, 所以可以一直輪詢調用send
直到沒報錯就認為是成功(真實代碼需要加超時):
while True: try: sock.send(request) break except OSError as e: pass
但是這樣讓CPU空轉太浪費性能了, 而且期間還不能做別的事情, 就像我們點外賣後一直打電話過去問飯菜做好了沒有, 十分浪費電話費用, 要是飯菜做完了就打電話告訴我們, 那就只產生了一筆費用, 非常的省錢(正常情況下也是這樣子)。
這時就需要事件循環登場了,在類UNIX中, 有一個叫select
的功能, 它可以等待事件發生後再調用監聽的函數, 不過一開始的實現性能不是很好, 在Linux
上被epoll
取代, 不過接口是類似的, 所在在Python
中把這幾個不同的事件循環都封裝在selectors
庫中, 同時可以通過DefaultSelector
從系統中挑出最好的類select
函數。
這裡先暫時不說事件循環的原理, 事件循環最主要的是他名字的兩部分, 一個是事件, 一個是循環, 在Python
中, 可以通過如下方法把事件注冊到事件循環中:
def demo(): passselector.register(fd, EVENT_WRITE, demo)
這樣這個事件循環就會監聽對應的文件描述符fd, 當這個文件描述符觸發寫入事件(EVENT_WRITE)時,事件循環就會告訴我們可以去調用注冊的函數demo
。不過如果把上面的代碼都改為這種方法去運行的話就會發現, 程序好像沒跑就結束了, 但程序其實是有跑的, 只不過他們是完成的了注冊, 然後就等待開發者接收事件循環的事件進行下一步的操作, 所以我們只需要在代碼的最後面寫上如下代碼:
while True: for key, mask in selector.select(): key.data()
這樣程序就會一直運行, 當捕獲到事件的時候, 就會通過for循環告訴我們, 其中key.data
是我們注冊的回調函數, 當事件發生時, 就會通知我們, 我們可以通過拿到回調函數然後就運行, 了解完畢後, 我們可以來編寫我們的第一個並發程序, 他實現了一個簡單的I/O復用的小邏輯, 代碼和注釋如下:
import socketfrom selectors import DefaultSelector, EVENT_READ, EVENT_WRITE# 選擇事件循環selector: DefaultSelector = DefaultSelector()# 用於判斷是否有事件在運行running_cnt: int = 0def request(host: str) -> None: """模擬請求並打印響應體""" # 告訴主函數, 自己的事件還在運行 global running_cnt running_cnt += 1 # 初始化socket url: str = f"http://{host}" sock: socket.SocketType = socket.socket() sock.setblocking(False) try: sock.connect((host, 80)) except BlockingIOError: pass response_bytes: bytes = b"" def read_response() -> None: """接收響應參數, 並判斷請求是否結束""" nonlocal response_bytes chunk: bytes = sock.recv(4096) print(f"recv {host} body success") if chunk: response_bytes += chunk else: # 沒有數據代表請求結束了, 注銷監聽 selector.unregister(sock.fileno()) global running_cnt running_cnt -= 1 def connected() -> None: """socket建立連接時的回調""" # 取消監聽 selector.unregister(sock.fileno()) print(f"{host} connect success") # 發送請求, 並監聽讀事件, 以及注冊對應的接收響應函數 sock.send(f"GET {url} HTTP/1.0\r\nHost: {host}\r\n\r\n".encode("ascii")) selector.register(sock.fileno(), EVENT_READ, read_response) selector.register(sock.fileno(), EVENT_WRITE, connected)if __name__ == "__main__": # 同時多個請求 request("so1n.me") request("github.com") request("google.com") request("baidu.com") # 監聽是否有事件在運行 while running_cnt > 0: # 等待事件循環通知事件是否已經完成 for key, mask in selector.select(): key.data()
這段代碼接近同時注冊了4個請求並注冊建立連接回調, 然後就進入事件循環邏輯, 也就是把控制權交給事件循環, 直到事件循環告訴程序說收到了socket建立的通知, 程序就會取消注冊的回調然後發送請求, 並注冊一個讀的事件回調, 然後又把控制權交給事件循環, 直到收到了響應的結果才進入處理響應結果函數並且只有收完所有響應結果才會退出程序。
下面是我其中的一次執行結果
so1n.me connect success
github.com connect success
google.com connect success
recv google.com body success
recv google.com body success
baidu.com connect success
recv github.com body success
recv github.com body success
recv baidu.com body success
recv baidu.com body success
recv so1n.me body success
recv so1n.me body success
可以看到他們的執行順序是隨機的, 不是嚴格的按照so1n.me
, github.com
, google.com
, baidu.com
順序執行, 同時他們執行速度很快, 這個程序的耗時約等於響應時長最長的函數耗時。
但是可以看出, 這個程序裡面出現了兩個回調, 回調會讓代碼變得非常的奇怪, 降低可讀性, 也容易造成回調地獄, 而且當回調發生報錯的時候, 我們是很難知道這是由於什麼導致的錯誤, 因為它的上下文丟失了, 這樣子排查問題十分的困惑。 作為程序員, 一般都不止滿足於速度快的代碼, 真正想要的是又快, 又能像Sync
的代碼一樣簡單, 可讀性強, 也能容易排查問題的代碼, 這種組合形式的代碼的設計模式就叫協程。
協程出現得很早, 它不像線程一樣, 被系統調度, 而是能自主的暫停, 並等待事件循環通知恢復。由於協程是軟件層面實現的, 所以它的實現方式有很多種, 這裡要說的是基於生成器的協程, 因為生成器跟協程一樣, 都有暫停讓步和恢復的方法(還可以通過throw
來拋錯), 同時它跟Async
語法的協程很像, 通過了解基於生成器的協程, 可以了解Async
的協程是如何實現的。
在了解基於生成器的協程之前, 需要先了解下生成器, Python
的生成器函數與普通的函數會有一些不同, 只有普通函數中帶有關鍵字yield
, 那麼它就是生成器函數, 具體有什麼不同可以通過他們的字節碼來了解:
In [1]: import dis# 普通函數In [2]: def aaa(): passIn [3]: dis.dis(aaa) 1 0 LOAD_CONST 0 (None) 2 RETURN_VALUE# 普通函數調用函數In [4]: def bbb(): ...: aaa() ...:In [5]: dis.dis(bbb) 2 0 LOAD_GLOBAL 0 (aaa) 2 CALL_FUNCTION 0 4 POP_TOP 6 LOAD_CONST 0 (None) 8 RETURN_VALUE# 普通生成器函數In [6]: def ccc(): yieldIn [7]: dis.dis(ccc) 1 0 LOAD_CONST 0 (None) 2 YIELD_VALUE 4 POP_TOP 6 LOAD_CONST 0 (None) 8 RETURN_VALUE
上面分別是普通函數, 普通函數調用函數和普通生成器函數的字節碼, 從字節碼可以看出來, 最簡單的函數只需要LOAD_CONST
來加載變量None壓入自己的棧, 然後通過RETURN_VALUE
來返回值, 而有函數調用的普通函數則先加載變量, 把全局變量的函數aaa
加載到自己的棧裡面, 然後通過CALL_FUNCTION
來調用函數, 最後通過POP_TOP
把函數的返回值從棧裡拋出來, 再把通過LOAD_CONST
把None壓入自己的棧, 最後返回值。
而生成器函數則不一樣, 它會先通過LOAD_CONST
來加載變量None壓入自己的棧, 然後通過YIELD_VALUE
返回值, 接著通過POP_TOP
彈出剛才的棧並重新把變量None壓入自己的棧, 最後通過RETURN_VALUE
來返回值。從字節碼來分析可以很清楚的看到, 生成器能夠在yield
區分兩個棧幀, 一個函數調用可以分為多次返回, 很符合協程多次等待的特點。
接著來看看生成器的一個使用, 這個生成器會有兩次yield
調用, 並在最後返回字符串'None'
, 代碼如下:
In [8]: def demo(): ...: a = 1 ...: b = 2 ...: print('aaa', locals()) ...: yield 1 ...: print('bbb', locals()) ...: yield 2 ...: return 'None' ...:In [9]: demo_gen = demo()In [10]: demo_gen.send(None)aaa {'a': 1, 'b': 2}Out[10]: 1In [11]: demo_gen.send(None)bbb {'a': 1, 'b': 2}Out[11]: 2In [12]: demo_gen.send(None)---------------------------------------------------------------------------StopIteration Traceback (most recent call last)<ipython-input-12-8f8cb075d6af> in <module>----> 1 demo_gen.send(None)StopIteration: None
這段代碼首先通過函數調用生成一個demo_gen
的生成器對象, 然後第一次send
調用時返回值1, 第二次send
調用時返回值2, 第三次send
調用則拋出StopIteration
異常, 異常提示為None
, 同時可以看到第一次打印aaa
和第二次打印bbb
時, 他們都能打印到當前的函數局部變量, 可以發現在即使在不同的棧幀中, 他們讀取到當前的局部函數內的局部變量是一致的, 這意味著如果使用生成器來模擬協程時, 它還是會一直讀取到當前上下文的, 非常的完美。
此外, Python
還支持通過yield from
語法來返回一個生成器, 代碼如下:
In [1]: def demo_gen_1(): ...: for i in range(3): ...: yield i ...:In [2]: def demo_gen_2(): ...: yield from demo_gen_1() ...:In [3]: demo_gen_obj = demo_gen_2()In [4]: demo_gen_obj.send(None)Out[4]: 0In [5]: demo_gen_obj.send(None)Out[5]: 1In [6]: demo_gen_obj.send(None)Out[6]: 2In [7]: demo_gen_obj.send(None)---------------------------------------------------------------------------StopIteration Traceback (most recent call last)<ipython-input-7-f9922a2f64c9> in <module>----> 1 demo_gen_obj.send(None)StopIteration:
通過yield from
就可以很方便的支持生成器調用, 假如把每個生成器函數都當做一個協程, 那通過yield from
就可以很方便的實現協程間的調用, 此外生成器的拋出異常後的提醒非常人性化, 也支持throw
來拋出異常, 這樣我們就可以實現在協程運行時設置異常, 比如Cancel
,演示代碼如下:
In [1]: def demo_exc(): ...: yield 1 ...: raise RuntimeError() ...:In [2]: def demo_exc_1(): ...: for i in range(3): ...: yield i ...:In [3]: demo_exc_gen = demo_exc()In [4]: demo_exc_gen.send(None)Out[4]: 1In [5]: demo_exc_gen.send(None)---------------------------------------------------------------------------RuntimeError Traceback (most recent call last)<ipython-input-5-09fbb75fdf7d> in <module>----> 1 demo_exc_gen.send(None)<ipython-input-1-69afbc1f9c19> in demo_exc() 1 def demo_exc(): 2 yield 1----> 3 raise RuntimeError() 4 RuntimeError: In [6]: demo_exc_gen_1 = demo_exc_1()In [7]: demo_exc_gen_1.send(None) Out[7]: 0In [8]: demo_exc_gen_1.send(None) Out[8]: 1In [9]: demo_exc_gen_1.throw(RuntimeError) ---------------------------------------------------------------------------RuntimeError Traceback (most recent call last)<ipython-input-9-1a1cc55d71f4> in <module>----> 1 demo_exc_gen_1.throw(RuntimeError)<ipython-input-2-2617b2366dce> in demo_exc_1() 1 def demo_exc_1(): 2 for i in range(3):----> 3 yield i 4 RuntimeError:
從中可以看到在運行中拋出異常時, 會有一個非常清楚的拋錯, 可以明顯看出錯誤堆棧, 同時throw
指定異常後, 會在下一處yield
拋出異常(所以協程調用Cancel
後不會馬上取消, 而是下一次調用的時候才被取消)。
我們已經簡單的了解到了生成器是非常的貼合協程的編程模型, 同時也知道哪些生成器API是我們需要的API, 接下來可以模仿Asyncio
的接口來實現一個簡單的協程。
首先是在Asyncio
中有一個封裝叫Feature
, 它用來表示協程正在等待將來時的結果, 以下是我根據asyncio.Feature
封裝的一個簡單的Feature
, 它的API沒有asyncio.Feature
全, 代碼和注釋如下:
class Status: """用於判斷Future狀態""" pending: int = 1 finished: int = 2 cancelled: int = 3class Future(object): def __init__(self) -> None: """初始化時, Feature處理pending狀態, 等待set result""" self.status: int = Status.pending self._result: Any = None self._exception: Optional[Exception] = None self._callbacks: List[Callable[['Future'], None]] = [] def add_done_callback(self, fn: [['Future'], None]Callable) -> None: """添加完成時的回調""" self._callbacks.append(fn) def cancel(self): """取消當前的Feature""" if self.status != Status.pending: return False self.status = Status.cancelled for fn in self._callbacks: fn(self) return True def set_exception(self, exc: Exception) -> None: """設置異常""" if self.status != Status.pending: raise RuntimeError("Can not set exc") self._exception = exc self.status = Status.finished def set_result(self, result: Any) -> None: """設置結果""" if self.status != Status.pending: raise RuntimeError("Can not set result") self.status = Status.finished self._result = result for fn in self._callbacks: fn(self) def result(self): """獲取結果""" if self.status == Status.cancelled: raise asyncio.CancelledError elif self.status != Status.finished: raise RuntimeError("Result is not read") elif self._exception is not None: raise self._exception return self._result def __iter__(self): """通過生成器來模擬協程, 當收到結果通知時, 會返回結果""" if self.status == Status.pending: yield self return self.result()
在理解Future
時, 可以把它假想為一個狀態機, 在啟動初始化的時候是peding
狀態, 在運行的時候我們可以切換它的狀態, 並且通過__iter__
方法來支持調用者使用yield from Future()
來等待Future
本身, 直到收到了事件通知時, 可以得到結果。
但是可以發現這個Future
是無法自我驅動, 調用了__iter__
的程序不知道何時被調用了set_result
, 在Asyncio
中是通過一個叫Task
的類來驅動Future
, 它將一個協程的執行過程安排好, 並負責在事件循環中執行該協程。它主要有兩個方法:
1.初始化時, 會先通過send
方法激活生成器
2.後續被調度後馬上安排下一次等待, 除非拋出StopIteration
異常
還有一個支持取消運行托管協程的方法(在原代碼中, Task
是繼承於Future
, 所以Future
有的它都有), 經過簡化後的代碼如下:
class Task: def __init__(self, coro: Generator) -> None: # 初始化狀態 self.cancelled: bool = False self.coro: Generator = coro # 預激一個普通的future f: Future = Future() f.set_result(None) self.step(f) def cancel(self) -> None: """用於取消托管的coro""" self.coro.throw(asyncio.CancelledError) def step(self, f: Future) -> None: """用於調用coro的下一步, 從第一次激活開始, 每次都添加完成時的回調, 直到遇到取消或者StopIteration異常""" try: _future = self.coro.send(f.result()) except asyncio.CancelledError: self.cancelled = True return except StopIteration: return _future.add_done_callback(self.step)
這樣Future
和Task
就封裝好了, 可以簡單的試一試效果如何:
In [2]:def wait_future(f: Future, flag_int: int) -> Generator[Future, None, None]: ...: result = yield from f ...: print(flag_int, result) ...: ...:future: Future = Future() ...:for i in range(3): ...: coro = wait_future(future, i) ...: # 托管wait_future這個協程, 裡面的Future也會通過yield from被托管 ...: Task(coro) ...: ...:print('ready') ...:future.set_result('ok') ...: ...:future = Future() ...:Task(wait_future(future, 3)).cancel() ...: ready0 ok1 ok2 ok---------------------------------------------------------------------------CancelledError Traceback (most recent call last)<ipython-input-2-2d1b04db2604> in <module> 12 13 future = Future()---> 14 Task(wait_future(future, 3)).cancel()<ipython-input-1-ec3831082a88> in cancel(self) 81 82 def cancel(self) -> None:---> 83 self.coro.throw(asyncio.CancelledError) 84 85 def step(self, f: Future) -> None:<ipython-input-2-2d1b04db2604> in wait_future(f, flag_int) 1 def wait_future(f: Future, flag_int: int) -> Generator[Future, None, None]:----> 2 result = yield from f 3 print(flag_int, result) 4 5 future: Future = Future()<ipython-input-1-ec3831082a88> in __iter__(self) 68 """通過生成器來模擬協程, 當收到結果通知時, 會返回結果""" 69 if self.status == Status.pending:---> 70 yield self 71 return self.result() 72 CancelledError:
這段程序會先初始化Future
, 並把Future
傳給wait_future
並生成生成器, 再交由給Task
托管, 預激, 由於Future
是在生成器函數wait_future
中通過yield from
與函數綁定的, 真正被預激的其實是Future
的__iter__
方法中的yield self
, 此時代碼邏輯會暫停在yield self
並返回。
在全部預激後, 通過調用Future
的set_result
方法, 使Future
變為結束狀態, 由於set_result
會執行注冊的回調, 這時它就會執行托管它的Task
的step
方法中的send
方法, 代碼邏輯回到Future
的__iter__
方法中的yield self
, 並繼續往下走, 然後遇到return
返回結果, 並繼續走下去, 從輸出可以發現程序封裝完成且打印了ready
後, 會依次打印對應的返回結果, 而在最後一個的測試cancel
方法中可以看到,Future
拋出異常了, 同時這些異常很容易看懂, 能夠追隨到調用的地方。
現在Future
和Task
正常運行了, 可以跟我們一開始執行的程序進行整合, 代碼如下:
class HttpRequest(object): def __init__(self, host: str): """初始化變量和sock""" self._host: str = host global running_cnt running_cnt += 1 self.url: str = f"http://{host}" self.sock: socket.SocketType = socket.socket() self.sock.setblocking(False) try: self.sock.connect((host, 80)) except BlockingIOError: pass def read(self) -> Generator[Future, None, bytes]: """從socket獲取響應數據, 並set到Future中, 並通過Future.__iter__方法或得到數據並通過變量chunk_future返回""" f: Future = Future() selector.register(self.sock.fileno(), EVENT_READ, lambda: f.set_result(self.sock.recv(4096))) chunk_future = yield from f selector.unregister(self.sock.fileno()) return chunk_future # type: ignore def read_response(self) -> Generator[Future, None, bytes]: """接收響應參數, 並判斷請求是否結束""" response_bytes: bytes = b"" chunk = yield from self.read() while chunk: response_bytes += chunk chunk = yield from self.read() return response_bytes def connected(self) -> Generator[Future, None, None]: """socket建立連接時的回調""" # 取消監聽 f: Future = Future() selector.register(self.sock.fileno(), EVENT_WRITE, lambda: f.set_result(None)) yield f selector.unregister(self.sock.fileno()) print(f"{self._host} connect success") def request(self) -> Generator[Future, None, None]: # 發送請求, 並監聽讀事件, 以及注冊對應的接收響應函數 yield from self.connected() self.sock.send(f"GET {self.url} HTTP/1.0\r\nHost: {self._host}\r\n\r\n".encode("ascii")) response = yield from self.read_response() print(f"request {self._host} success, length:{len(response)}") global running_cnt running_cnt -= 1if __name__ == "__main__": # 同時多個請求 Task(HttpRequest("so1n.me").request()) Task(HttpRequest("github.com").request()) Task(HttpRequest("google.com").request()) Task(HttpRequest("baidu.com").request()) # 監聽是否有事件在運行 while running_cnt > 0: # 等待事件循環通知事件是否已經完成 for key, mask in selector.select(): key.data()
這段代碼通過Future
和生成器方法盡量的解耦回調函數, 如果忽略了HttpRequest
中的connected
和read
方法則可以發現整段代碼跟同步的代碼基本上是一樣的, 只是通過yield
和yield from
交出控制權和通過事件循環恢復控制權。 同時通過上面的異常例子可以發現異常排查非常的方便, 這樣一來就沒有了回調的各種糟糕的事情, 開發者只需要按照同步的思路進行開發即可, 不過我們的事件循環是一個非常簡單的事件循環例子, 同時對於socket相關都沒有進行封裝, 也缺失一些常用的API, 而這些都會被Python
官方封裝到Asyncio
這個庫中, 通過該庫, 我們可以近乎完美的編寫Async
語法的代碼。
NOTE: 由於生成器協程中無法通過
yield from
語法使用生成器, 所以Python
在3.5之後使用了Await
的原生協程。
到此這篇關於Python中Async語法協程的實現的文章就介紹到這了,更多相關Python協程內容請搜索軟件開發網以前的文章或繼續浏覽下面的相關文章希望大家以後多多支持軟件開發網!