?? 盡人事,聽天命,博主東南大學碩士在讀,熱愛健身和籃球,樂于分享技術相關的所見所得,關注公眾號 @ 飛天小牛肉,第一時間獲取文章更新,成長的路上我們一起進步
?? 本文已收錄于 「CS-Wiki」Gitee 官方推薦專案,現已累計 1.4k+ star,致力打造完善的后端知識體系,在技術的路上少走彎路,歡迎各位小伙伴前來交流學習
?? 如果各位小伙伴春招秋招沒有拿得出手的專案的話,可以參考我寫的一個專案「開源社區系統 Echo」Gitee 官方推薦專案,目前已累計 250+ star,基于 SpringBoot + MyBatis + MySQL + Redis + Kafka + Elasticsearch + Spring Security + ... 并提供詳細的開發檔案和配套教程,公眾號后臺回復 Echo 可以獲取配套教程,目前尚在更新中
初學作業系統的時候,我就一直懵逼,為啥行程同步與互斥機制里有信號量機制,行程通信里又有信號量機制,然后你再看網路上的各種面試題匯總或者博客,你會發現很多都是千篇一律的行程通信機制有哪些?行程同步與互斥機制鮮有人問津,看多了我都想把 CSDN 屏了.....,最后知道真相的我只想說為啥不能一篇博客把東西寫清楚,沒頭沒尾真的浪費時間,
希望這篇文章能夠拯救某段時間和我一樣被繞暈的小伙伴,上篇文章我已經講過行程間的同步與互斥機制,各位小伙伴看完這個再來看行程通信比較好,
全文脈絡思維導圖如下:

1. 什么是行程通信
顧名思義,行程通信( InterProcess Communication,IPC)就是指行程之間的資訊交換,實際上,行程的同步與互斥本質上也是一種行程通信(這也就是待會我們會在行程通信機制中看見信號量和 PV 操作的原因了),只不過它傳輸的僅僅是信號量,通過修改信號量,使得行程之間建立聯系,相互協調和協同作業,但是它缺乏傳遞資料的能力,
雖然存在某些情況,行程之間交換的資訊量很少,比如僅僅交換某個狀態資訊,這樣行程的同步與互斥機制完全可以勝任這項作業,但是大多數情況下,行程之間需要交換大批資料,比如傳送一批資訊或整個檔案,這就需要通過一種新的通信機制來完成,也就是所謂的行程通信,
再來從作業系統層面直觀的看一些行程通信:我們知道,為了保證安全,每個行程的用戶地址空間都是獨立的,一般而言一個行程不能直接訪問另一個行程的地址空間,不過內核空間是每個行程都共享的,所以行程之間想要進行資訊交換就必須通過內核,

下面就來我們來列舉一下 Linux 內核提供的常見的行程通信機制:
-
管道(也稱作共享檔案)
-
訊息佇列(也稱作訊息傳遞)
-
共享記憶體(也稱作共享存盤)
-
信號量和 PV 操作
-
信號
-
套接字(Socket)
2. 管道
匿名管道
各位如果學過 Linux 命令,那對管道肯定不陌生,Linux 管道使用豎線 | 連接多個命令,這被稱為管道符,
$ command1 | command2
以上這行代碼就組成了一個管道,它的功能是將前一個命令(command1)的輸出,作為后一個命令(command2)的輸入,從這個功能描述中,我們可以看出管道中的資料只能單向流動,也就是半雙工通信,如果想實作相互通信(全雙工通信),我們需要創建兩個管道才行,
另外,通過管道符 | 創建的管道是匿名管道,用完了就會被自動銷毀,并且,匿名管道只能在具有親緣關系(父子行程)的行程間使用,,也就是說,匿名管道只能用于父子行程之間的通信,
在 Linux 的實際編碼中,是通過 pipe 函式來創建匿名管道的,若創建成功則回傳 0,創建失敗就回傳 -1:
int pipe (int fd[2]);
該函式擁有一個存盤空間為 2 的檔案描述符陣列:
-
fd[0]指向管道的讀端,fd[1]指向管道的寫端 -
fd[1]的輸出是fd[0]的輸入
粗略的解釋一下通過匿名管道實作行程間通信的步驟:
1)父行程創建兩個匿名管道,管道 1(fd1[0]和 fd1[1])和管道 2(fd2[0] 和 fd2[1]);
因為管道的資料是單向流動的,所以要想實作資料雙向通信,就需要兩個管道,每個方向一個,
2)父行程 fork 出子行程,于是對于這兩個匿名管道,子行程也分別有兩個檔案描述符指向匿名管道的讀寫兩端;
3)父行程關閉管道 1 的讀端 fd1[0] 和 管道 2 的寫端 fd2[1],子行程關閉管道 1 的寫端 fd1[1] 和 管道 2 的讀端 fd2[0],這樣,管道 1 只能用于父行程寫、子行程讀;管道 2 只能用于父行程讀、子行程寫,管道是用環形佇列實作的,資料從寫端流入從讀端流出,這就實作了父子行程之間的雙向通信,

看完上面這些講述,我們來理解下管道的本質是什么:對于管道兩端的行程而言,管道就是一個檔案(這也就是為啥管道也被稱為共享檔案機制的原因了),但它不是普通的檔案,它不屬于某種檔案系統,而是自立門戶,單獨構成一種檔案系統,并且只存在于記憶體中,
簡單來說,管道的本質就是內核在記憶體中開辟了一個緩沖區,這個緩沖區與管道檔案相關聯,對管道檔案的操作,被內核轉換成對這塊緩沖區的操作,
有名管道
匿名管道由于沒有名字,只能用于父子行程間的通信,為了克服這個缺點,提出了有名管道,也稱做 FIFO,因為資料是先進先出的傳輸方式,
所謂有名管道也就是提供一個路徑名與之關聯,這樣,即使與創建有名管道的行程不存在親緣關系的行程,只要可以訪問該路徑,就能夠通過這個有名管道進行相互通信,
使用 Linux 命令 mkfifo 來創建有名管道:
$ mkfifo myPipe
myPipe 就是這個管道的名稱,接下來,我們往 myPipe 這個有名管道中寫入資料:
$ echo "hello" > myPipe
執行這行命令后,你會發現它就停在這了,這是因為管道里的內容沒有被讀取,只有當管道里的資料被讀完后,命令才可以正常退出,于是,我們執行另外一個命令來讀取這個有名管道里的資料:
$ cat < myPipe
hello
3. 訊息佇列
可以看出,管道這種行程通信方式雖然使用簡單,但是效率比較低,不適合行程間頻繁地交換資料,并且管道只能傳輸無格式的位元組流,為此,訊息傳遞機制(Linux 中稱訊息佇列)應用而生,比如,A 行程要給 B 行程發送訊息,A 行程把資料放在對應的訊息佇列后就可以正常回傳了,B 行程在需要的時候自行去訊息佇列中讀取資料就可以了,同樣的,B 行程要給 A 行程發送訊息也是如此,

訊息佇列的本質就是存放在記憶體中的訊息的鏈表,而訊息本質上是用戶自定義的資料結構,如果行程從訊息佇列中讀取了某個訊息,這個訊息就會被從訊息佇列中洗掉,對比一下管道機制:
-
訊息佇列允許一個或多個行程向它寫入或讀取訊息,
-
訊息佇列可以實作訊息的隨機查詢,不一定非要以先進先出的次序讀取訊息,也可以按訊息的型別讀取,比有名管道的先進先出原則更有優勢,
-
對于訊息佇列來說,在某個行程往一個佇列寫入訊息之前,并不需要另一個行程在該訊息佇列上等待訊息的到達,而對于管道來說,除非讀行程已存在,否則先有寫行程進行寫入操作是沒有意義的,
-
訊息佇列的生命周期隨內核,如果沒有釋放訊息佇列或者沒有關閉作業系統,訊息佇列就會一直存在,而匿名管道隨行程的創建而建立,隨行程的結束而銷毀,
需要注意的是,訊息佇列對于交換較少數量的資料很有用,因為無需避免沖突,但是,由于用戶行程寫入資料到記憶體中的訊息佇列時,會發生從用戶態拷貝資料到內核態的程序;同樣的,另一個用戶行程讀取記憶體中的訊息資料時,會發生從內核態拷貝資料到用戶態的程序,因此,如果資料量較大,使用訊息佇列就會造成頻繁的系統呼叫,也就是需要消耗更多的時間以便內核介入,
4. 共享記憶體
為了避免像訊息佇列那樣頻繁的拷貝訊息、進行系統呼叫,共享記憶體機制出現了,
顧名思義,共享記憶體就是允許不相干的行程將同一段物理記憶體連接到它們各自的地址空間中,使得這些行程可以訪問同一個物理記憶體,這個物理記憶體就成為共享記憶體,如果某個行程向共享記憶體寫入資料,所做的改動將立即影響到可以訪問同一段共享記憶體的任何其他行程,
集合記憶體管理的內容,我們來深入理解下共享記憶體的原理,首先,每個行程都有屬于自己的行程控制塊(PCB)和邏輯地址空間(Addr Space),并且都有一個與之對應的頁表,負責將行程的邏輯地址(虛擬地址)與物理地址進行映射,通過記憶體管理單元(MMU)進行管理,兩個不同行程的邏輯地址通過頁表映射到物理空間的同一區域,它們所共同指向的這塊區域就是共享記憶體,

不同于訊息佇列頻繁的系統呼叫,對于共享記憶體機制來說,僅在建立共享記憶體區域時需要系統呼叫,一旦建立共享記憶體,所有的訪問都可作為常規記憶體訪問,無需借助內核,這樣,資料就不需要在行程之間來回拷貝,所以這是最快的一種行程通信方式,

5. 信號量和 PV 操作
實際上,對具有多 CPU 系統的最新研究表明,在這類系統上,訊息傳遞的性能其實是要優于共享記憶體的,因為訊息佇列無需避免沖突,而共享記憶體機制可能會發生沖突,也就是說如果多個行程同時修改同一個共享記憶體,先來的那個行程寫的內容就會被后來的覆寫,
并且,在多道批處理系統中,多個行程是可以并發執行的,但由于系統的資源有限,行程的執行不是一貫到底的, 而是走走停停,以不可預知的速度向前推進(異步性),但有時候我們又希望多個行程能密切合作,按照某個特定的順序依次執行,以實作一個共同的任務,
舉個例子,如果有 A、B 兩個行程分別負責讀和寫資料的操作,這兩個執行緒是相互合作、相互依賴的,那么寫資料應該發生在讀資料之前,而實際上,由于異步性的存在,可能會發生先讀后寫的情況,而此時由于緩沖區還沒有被寫入資料,讀行程 A 沒有資料可讀,因此讀行程 A 被阻塞,

因此,為了解決上述這兩個問題,保證共享記憶體在任何時刻只有一個行程在訪問(互斥),并且使得行程們能夠按照某個特定順序訪問共享記憶體(同步),我們就可以使用行程的同步與互斥機制,常見的比如信號量與 PV 操作,
行程的同步與互斥其實是一種對行程通信的保護機制,并不是用來傳輸行程之間真正通信的內容的,但是由于它們會傳輸信號量,所以也被納入行程通信的范疇,稱為低級通信,
下面的內容和上篇文章【看完了行程同步與互斥機制,我終于徹底理解了 PV 操作】中所講的差不多,看過的小伙伴可直接跳到下一標題,
信號量其實就是一個變數 ,我們可以用一個信號量來表示系統中某種資源的數量,比如:系統中只有一臺列印機,就可以設定一個初值為 1 的信號量,
用戶行程可以通過使用作業系統提供的一對原語來對信號量進行操作,從而很方便的實作行程互斥或同步,這一對原語就是 PV 操作:
1)P 操作:將信號量值減 1,表示申請占用一個資源,如果結果小于 0,表示已經沒有可用資源,則執行 P 操作的行程被阻塞,如果結果大于等于 0,表示現有的資源足夠你使用,則執行 P 操作的行程繼續執行,
可以這么理解,當信號量的值為 2 的時候,表示有 2 個資源可以使用,當信號量的值為 -2 的時候,表示有兩個行程正在等待使用這個資源,不看這句話真的無法理解 V 操作,看完頓時如夢初醒,
2)V 操作:將信號量值加 1,表示釋放一個資源,即使用完資源后歸還資源,若加完后信號量的值小于等于 0,表示有某些行程正在等待該資源,由于我們已經釋放出一個資源了,因此需要喚醒一個等待使用該資源(就緒態)的行程,使之運行下去,
我覺得已經講的足夠通俗了,不過對于 V 操作大家可能仍然有困惑,下面再來看兩個關于 V 操作的問答:
問:信號量的值 大于 0 表示有共享資源可供使用,這個時候為什么不需要喚醒行程?
答:所謂喚醒行程是從就緒佇列(阻塞佇列)中喚醒行程,而信號量的值大于 0 表示有共享資源可供使用,也就是說這個時候沒有行程被阻塞在這個資源上,所以不需要喚醒,正常運行即可,
問:信號量的值 等于 0 的時候表示沒有共享資源可供使用,為什么還要喚醒行程?
答:V 操作是先執行信號量值加 1 的,也就是說,把信號量的值加 1 后才變成了 0,在此之前,信號量的值是 -1,即有一個行程正在等待這個共享資源,我們需要喚醒它,
信號量和 PV 操作具體的定義如下:

互斥訪問共享記憶體
兩步走即可實作不同行程對共享記憶體的互斥訪問:
-
定義一個互斥信號量,并初始化為 1
-
把對共享記憶體的訪問置于 P 操作和 V 操作之間

P 操作和 V 操作必須成對出現,缺少 P 操作就不能保證對共享記憶體的互斥訪問,缺少 V 操作就會導致共享記憶體永遠得不到釋放、處于等待態的行程永遠得不到喚醒,

實作行程同步
回顧一下行程同步,就是要各并發行程按要求有序地運行,
舉個例子,以下兩個行程 P1、P2 并發執行,由于存在異步性,因此二者交替推進的次序是不確定的,假設 P2 的 “代碼4” 要基于 P1 的 “代碼1” 和 “代碼2” 的運行結果才能執行,那么我們就必須保證 “代碼4” 一定是在 “代碼2” 之后才會執行,

如果 P2 的 “代碼4” 要基于 P1 的 “代碼1” 和 “代碼2” 的運行結果才能執行,那么我們就必須保證 “代碼4” 一定是在 “代碼2” 之后才會執行,
使用信號量和 PV 操作實作行程的同步也非常方便,三步走:
-
定義一個同步信號量,并初始化為當前可用資源的數量
-
在優先級較高的操作的后面執行 V 操作,釋放資源
-
在優先級較低的操作的前面執行 P 操作,申請占用資源

配合下面這張圖直觀理解下:

6. 信號
注意!信號和信號量是完全不同的兩個概念!
信號是行程通信機制中唯一的異步通信機制,它可以在任何時候發送信號給某個行程,通過發送指定信號來通知行程某個異步事件的發送,以迫使行程執行信號處理程式,信號處理完畢后,被中斷行程將恢復執行,用戶、內核和行程都能生成和發送信號,
信號事件的來源主要有硬體來源和軟體來源,所謂硬體來源就是說我們可以通過鍵盤輸入某些組合鍵給行程發送信號,比如常見的組合鍵 Ctrl+C 產生 SIGINT 信號,表示終止該行程;而軟體來源就是通過 kill 系列的命令給行程發送信號,比如 kill -9 1111 ,表示給 PID 為 1111 的行程發送 SIGKILL 信號,讓其立即結束,我們來查看一下 Linux 中有哪些信號:

7. Socket
至此,上面介紹的 5 種方法都是用于同一臺主機上的行程之間進行通信的,如果想要跨網路與不同主機上的行程進行通信,那該怎么做呢?這就是 Socket 通信做的事情了(當然,Socket 也能完成同主機上的行程通信),

Socket 起源于 Unix,原意是插座,在計算機通信領域,Socket 被翻譯為套接字,它是計算機之間進行通信的一種約定或一種方式,通過 Socket 這種約定,一臺計算機可以接收其他計算機的資料,也可以向其他計算機發送資料,
從計算機網路層面來說,Socket 套接字是網路通信的基石,是支持 TCP/IP 協議的網路通信的基本操作單元,它是網路通信程序中端點的抽象表示,包含進行網路通信必須的五種資訊:連接使用的協議,本地主機的 IP 地址,本地行程的協議埠,遠地主機的 IP 地址,遠地行程的協議埠,
Socket 的本質其實是一個編程介面(API),是應用層與 TCP/IP 協議族通信的中間軟體抽象層,它對 TCP/IP 進行了封裝,它把復雜的 TCP/IP 協議族隱藏在 Socket 介面后面,對用戶來說,只要通過一組簡單的 API 就可以實作網路的連接,

8. 總結
簡單總結一下上面六種 Linux 內核提供的行程通信機制:
1)首先,最簡單的方式就是管道,管道的本質是存放在記憶體中的特殊的檔案,也就是說,內核在記憶體中開辟了一個緩沖區,這個緩沖區與管道檔案相關聯,對管道檔案的操作,被內核轉換成對這塊緩沖區的操作,管道分為匿名管道和有名管道,匿名管道只能在父子行程之間進行通信,而有名管道沒有限制,
2)雖然管道使用簡單,但是效率比較低,不適合行程間頻繁地交換資料,并且管道只能傳輸無格式的位元組流,為此訊息佇列應用而生,訊息佇列的本質就是存放在記憶體中的訊息的鏈表,而訊息本質上是用戶自定義的資料結構,如果行程從訊息佇列中讀取了某個訊息,這個訊息就會被從訊息佇列中洗掉,
3)訊息佇列的速度比較慢,因為每次資料的寫入和讀取都需要經過用戶態與內核態之間資料的拷貝程序,共享記憶體可以解決這個問題,所謂共享記憶體就是:兩個不同行程的邏輯地址通過頁表映射到物理空間的同一區域,它們所共同指向的這塊區域就是共享記憶體,如果某個行程向共享記憶體寫入資料,所做的改動將立即影響到可以訪問同一段共享記憶體的任何其他行程,
對于共享記憶體機制來說,僅在建立共享記憶體區域時需要系統呼叫,一旦建立共享記憶體,所有的訪問都可作為常規記憶體訪問,無需借助內核,這樣,資料就不需要在行程之間來回拷貝,所以這是最快的一種行程通信方式,
4)共享記憶體速度雖然非常快,但是存在沖突問題,為此,我們可以使用信號量和 PV 操作來實作對共享記憶體的互斥訪問,并且還可以實作行程同步,
5)信號和信號量是完全不同的兩個概念!信號是行程通信機制中唯一的異步通信機制,它可以在任何時候發送信號給某個行程,通過發送指定信號來通知行程某個異步事件的發送,以迫使行程執行信號處理程式,信號處理完畢后,被中斷行程將恢復執行,用戶、內核和行程都能生成和發送信號,
6)上面介紹的 5 種方法都是用于同一臺主機上的行程之間進行通信的,如果想要跨網路與不同主機上的行程進行通信,就需要使用 Socket 通信,另外,Socket 也能完成同主機上的行程通信,
總結完畢!
?? 關注公眾號 | 飛天小牛肉,即時獲取更新
-
博主東南大學碩士在讀,利用課余時間運營一個公眾號『 飛天小牛肉 』,2020/12/29 日開通,專注分享計算機基礎(資料結構 + 演算法 + 計算機網路 + 資料庫 + 作業系統 + Linux)、Java 基礎和面試指南的相關原創技術好文,本公眾號的目的就是讓大家可以快速掌握重點知識,有的放矢,希望大家多多支持哦,和小牛肉一起成長 ??
-
并推薦個人維護的開源教程類專案: CS-Wiki(Gitee 推薦專案,現已累計 1.4k+ star), 致力打造完善的后端知識體系,在技術的路上少走彎路,歡迎各位小伙伴前來交流學習 ~ ??
-
如果各位小伙伴春招秋招沒有拿得出手的專案的話,可以參考我寫的一個專案「開源社區系統 Echo」Gitee 官方推薦專案,目前已累計 250+ star,基于 SpringBoot + MyBatis + MySQL + Redis + Kafka + Elasticsearch + Spring Security + ... 并提供詳細的開發檔案和配套教程,公眾號后臺回復 Echo 可以獲取配套教程,目前尚在更新中,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/264057.html
標籤:Java
