本文是通過學習倪朋飛老師的《Linux性能優化實戰》 :關于 Linux 網路,你必須知道這些
關于 Linux 網路,必須知道這些
- 網路模型
- Linux 網路堆疊
- Linux 網路收發流程
- 網路包的接收流程
- 網路包的發送流程
- 性能指標
- 網路配置
- 套接字資訊
- 協議堆疊統計資訊
- 網路吞吐和 PPS
- 連通性和延時
- 總結
同 CPU、記憶體以及 I/O 一樣,網路也是 Linux 系統最核心的功能,網路是一種把不同計算 機或網路設備連接到一起的技術,它本質上是一種行程間通信方式,特別是跨系統的行程 間通信,必須要通過網路才能進行,隨著高并發、分布式、云計算、微服務等技術的普 及,網路的性能也變得越來越重要,
那么,Linux 網路又是怎么作業的呢?又有哪些指標衡量網路的性能呢?接下來,我們一起學習 Linux 網路的作業原理和性能指標,
網路模型
說到網路,我們肯定經常提起七層負載均衡、四層負載均衡,或者三層設備、二層設備等等,那么,這里說的二層、三層、四層、七層又都是什么意思呢?
實際上,這些層都來自國際標準化組織制定的開放式系統互聯通信參考模型(Open System Interconnection Reference Model),簡稱為 OSI 網路模型,
為了解決網路互聯中異構設備的兼容性問題,并解耦復雜的網路包處理流程,OSI 模型把網路互聯的框架分為應用層、表示層、會話層、傳輸層、網路層、資料鏈路層以及物理層等七層,每個層負責不同的功能,其中:
- 應用層,負責為應用程式提供統一的介面,
- 表示層,負責把資料轉換成兼容接收系統的格式,
- 會話層,負責維護計算機之間的通信連接,
- 傳輸層,負責為資料加上傳輸表頭,形成資料包,
- 網路層,負責資料的路由和轉發,
- 資料鏈路層,負責 MAC 尋址、錯誤偵測和改錯,
- 物理層,負責在物理網路中傳輸資料幀,
但是 OSI 模型還是太復雜了,也沒能提供一個可實作的方法,所以,在 Linux 中,我們實際上使用的是另一個更實用的四層模型,即 TCP/IP 網路模型,
TCP/IP 模型,把網路互聯的框架分為應用層、傳輸層、網路層、網路介面層等四層,其中:
- 應用層,負責向用戶提供一組應用程式,比如 HTTP、FTP、DNS 等,
- 傳輸層,負責端到端的通信,比如 TCP、UDP 等,
- 網路層,負責網路包的封裝、尋址和路由,比如 IP、ICMP 等,
- 網路介面層,負責網路包在物理網路中的傳輸,比如 MAC 尋址、錯誤偵測以及通過網卡傳輸網路幀等,
為了幫你更形象理解 TCP/IP 與 OSI 模型的關系,畫了一張圖,如下所示:

當然了,雖說 Linux 實際按照 TCP/IP 模型,實作了網路協議堆疊,但在平時的學習交流中,我們習慣上還是用 OSI 七層模型來描述,比如,說到七層和四層負載均衡,對應的分別是 OSI 模型中的應用層和傳輸層(而它們對應到 TCP/IP 模型中,實際上是四層和三層),
Linux 網路堆疊
有了 TCP/IP 模型后,在進行網路傳輸時,資料包就會按照協議堆疊,對上一層發來的資料進行逐層處理;然后封裝上該層的協議頭,再發送給下一層,
當然,網路包在每一層的處理邏輯,都取決于各層采用的網路協議,比如在應用層,一個提供 REST API 的應用,可以使用 HTTP 協議,把它需要傳輸的 JSON 資料封裝到 HTTP 協議中,然后向下傳遞給 TCP 層,
而封裝做的事情就很簡單了,只是在原來的負載前后,增加固定格式的元資料,原始的負載資料并不會被修改,
比如,以通過 TCP 協議通信的網路包為例,通過下面這張圖,我們可以看到,應用程式資料在每個層的封裝格式,

其中:
- 傳輸層在應用程式資料前面增加了 TCP 頭;
- 網路層在 TCP 資料包前增加了 IP 頭;
- 而網路介面層,又在 IP 資料包前后分別增加了幀頭和幀尾,
這些新增的頭部和尾部,都按照特定的協議格式填充,想了解具體格式,你可以查看協議 的檔案, 比如,你可以查看這里,了解 TCP 頭的格式,
這些新增的頭部和尾部,增加了網路包的大小,但我們都知道,物理鏈路中并不能傳輸任意大小的資料包,網路介面配置的最大傳輸單元(MTU),就規定了最大的 IP 包大小, 在我們最常用的以太網中,MTU 默認值是 1500(這也是 Linux 的默認值),
一旦網路包超過 MTU 的大小,就會在網路層分片,以保證分片后的 IP 包不大于 MTU 值,顯然,MTU 越大,需要的分包也就越少,自然,網路吞吐能力就越好,
理解了 TCP/IP 網路模型和網路包的封裝原理后,我們很容易能想到,Linux 內核中的網路堆疊,其實也類似于 TCP/IP 的四層結構,如下圖所示,就是 Linux 通用 IP 網路堆疊的示意圖:

我們從上到下來看這個網路堆疊,可以發現:
- 最上層的應用程式,需要通過系統呼叫,來跟套接字介面進行互動;
- 套接字的下面,就是我們前面提到的傳輸層、網路層和網路介面層;
- 最底層,則是網卡驅動程式以及物理網卡設備,
網卡是發送和接收網路包的基本設備,在系統啟動程序中,網卡通過內核中的網卡驅動程式注冊到系統中,而在網路收發程序中,內核通過中斷跟網卡進行互動,
再結合 Linux 網路堆疊,可以看出,網路包的處理非常復雜,所以,網卡硬中斷 只處理最核心的網卡資料讀取或發送,而協議堆疊中的大部分邏輯,都會放到軟中斷中處理,
Linux 網路收發流程
了解了 Linux 網路堆疊后,我們再來看看, Linux 到底是怎么收發網路包的,
網路包的接收流程
我們先來看網路包的接收流程,
當一個網路幀到達網卡后,網卡會通過 DMA 方式,把這個網路包放到收包佇列中;然后通過硬中斷,告訴中斷處理程式已經收到了網路包,
接著,網卡中斷處理程式會為網路幀分配內核資料結構(sk_buff),并將其拷貝到 sk_buff 緩沖區中;然后再通過軟中斷,通知內核收到了新的網路幀,
接下來,內核協議堆疊從緩沖區中取出網路幀,并通過網路協議堆疊,從下到上逐層處理這個網路幀,比如:
- 在鏈路層檢查報文的合法性,找出上層協議的型別(比如 IPv4 還是 IPv6),再去掉幀頭、幀尾,然后交給網路層,
- 網路層取出 IP 頭,判斷網路包下一步的走向,比如是交給上層處理還是轉發,當網路層確認這個包是要發送到本機后,就會取出上層協議的型別(比如CP 還是 UDP),去 掉 IP 頭,再交給傳輸層處理,
- 傳輸層取出 TCP 頭或者 UDP 頭后,根據 < 源 IP、源埠、目的 IP、目的埠 > 四元 組作為標識,找出對應的Socket,并把資料拷貝到 Socket 的接收快取中,
- 最后,應用程式就可以使用 Socket 介面,讀取到新接收到的資料了,
為了更清晰表示這個流程,我們看下圖,這張圖的左半部分表示接收流程,而圖中的粉色箭頭則表示網路包的處理路徑,

網路包的發送流程
了解網路包的接收流程后,就很容易理解網路包的發送流程,網路包的發送流程就是上圖的右半部分,很容易發現,網路包的發送方向,正好跟接收方向相反,
- 首先,應用程式呼叫 Socket API(比如 sendmsg)發送網路包,
- 由于這是一個系統呼叫,所以會陷入到內核態的套接字層中,套接字層會把資料包放到 Socket 發送緩沖區中,
- 接下來,網路協議堆疊從 Socket 發送緩沖區中,取出資料包;再按照 TCP/IP 堆疊,從上到下 逐層處理,比如,傳輸層和網路層,分別為其增加 TCP 頭和 IP 頭,執行路由查找確認下 一跳的 IP,并按照 MTU 大小進行分片,
- 分片后的網路包,再送到網路介面層,進行物理地址尋址,以找到下一跳的 MAC 地址, 然后添加幀頭和幀尾,放到發包佇列中,這一切完成后,會有軟中斷通知驅動程式:發包 佇列中有新的網路幀需要發送,
- 最后,驅動程式通過 DMA ,從發包佇列中讀出網路幀,并通過物理網卡把它發送出去,
性能指標
實際上,我們通常用帶寬、吞吐量、延時、PPS(Packet Per Second)等指標衡量網路的性能,
- 帶寬,表示鏈路的最大傳輸速率,單位通常為 b/s (位元 / 秒),
- 吞吐量,表示單位時間內成功傳輸的資料量,單位通常為 b/s(位元 / 秒)或者B/s(位元組 / 秒),吞吐量受帶寬限制,而吞吐量 / 帶寬,也就是該網路的使用率,
- 延時,表示從網路請求發出后,一直到收到遠端回應,所需要的時間延遲,在不同場景 中,這一指標可能會有不同含義,比如,它可以表示,建立連接需要的時間(比如 TCP 握手延時),或一個資料包往返所需的時間(比如 RTT),
- PPS,是 Packet Per Second(包 / 秒)的縮寫,表示以網路包為單位的傳輸速率, PPS 通常用來評估網路的轉發能力,比如硬體交換機,通常可以達到線性轉發(即 PPS 可以達到或者接近理論最大值),而基于 Linux 服務器的轉發,則容易受網路包大小的影響,
除了這些指標,網路的可用性(網路能否正常通信)、并發連接數(TCP 連接數量)、丟包率(丟包百分比)、重傳率(重新傳輸的網路包比例)等也是常用的性能指標,
網路配置
分析網路問題的第一步,通常是查看網路介面的配置和狀態,你可以使用 ifconfig 或者 ip 命令,來查看網路的配置,推薦使用 ip 工具,因為它提供了更豐富的功能和更易用的介面,
ifconfig 和 ip 分別屬于軟體包 net-tools 和 iproute2,iproute2 是 net- tools
的下一代,通常情況下它們會在發行版中默認安裝,但如果你找不到 ifconfig 或者 ip 命令,可以安裝這兩個軟體包,
以網路介面 eth0 為例,你可以運行下面的兩個命令,查看它的配置和狀態:
ifconfig eth0
eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 172.31.36.80 netmask 255.255.240.0 broadcast 172.31.47.255
inet6 fe80::216:3eff:fe00:49c8 prefixlen 64 scopeid 0x20<link>
ether 00:16:3e:00:49:c8 txqueuelen 1000 (Ethernet)
RX packets 214245377663 bytes 60324392337318 (54.8 TiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 214276251268 bytes 26576472133761 (24.1 TiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
ip -s addr show dev eth0
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
link/ether 00:16:3e:00:49:c8 brd ff:ff:ff:ff:ff:ff
inet 172.31.36.80/20 brd 172.31.47.255 scope global dynamic noprefixroute eth0
valid_lft 303263442sec preferred_lft 303263442sec
inet6 fe80::216:3eff:fe00:49c8/64 scope link
valid_lft forever preferred_lft forever
RX: bytes packets errors dropped overrun mcast
60324394191655 214245383123 0 0 0 0
TX: bytes packets errors dropped carrier collsns
26576473025328 214276256966 0 0 0 0
可以看到,ifconfig 和 ip 命令輸出的指標基本相同,只是顯示格式略微不同,比如,它們都包括了網路介面的狀態標志、MTU 大小、IP、子網、MAC 地址以及網路包收發的統 計資訊,
這些具體指標的含義,在檔案中都有詳細的說明,不過,這里有幾個跟網路性能密切相關的指標,需要特別關注一下,
- 第一,網路介面的狀態標志,ifconfig 輸出中的 RUNNING ,或 ip 輸出中的 LOWER_UP ,都表示物理網路是連通的,即網卡已經連接到了交換機或者路由器中,如 果你看不到它們,通常表示網線被拔掉了,
- 第二,MTU 的大小,MTU 默認大小是 1500,根據網路架構的不同(比如是否使用了 VXLAN 等疊加網路),你可能需要調大或者調小 MTU 的數值,
- 第三,網路介面的 IP 地址、子網以及 MAC 地址,這些都是保障網路功能正常作業所必需 的,你需要確保配置正確,
- 第四,網路收發的位元組數、包數、錯誤數以及丟包情況,特別是 TX 和 RX 部分的 errors、dropped、overruns、carrier 以及 collisions 等指標不為 0 時,通常表示出現 了網路 I/O 問題,其中:
errors 表示發生錯誤的資料包數,比如校驗錯誤、幀同步錯誤等;
dropped 表示丟棄的資料包數,即資料包已經收到了 Ring Buffer,但因為記憶體不足等 原因丟包;
overruns 表示超限資料包數,即網路 I/O 速度過快,導致 Ring Buffer 中的資料包來不 及處理(佇列滿)而導致的丟包;
carrier 表示發生 carrirer 錯誤的資料包數,比如雙工模式不匹配、物理電纜出現問題等;
collisions 表示碰撞資料包數,
套接字資訊
ifconfig 和 ip 只顯示了網路介面收發資料包的統計資訊,但在實際的性能問題中,網路協議堆疊中的統計資訊,我們也必須關注,可以用 netstat 或者 ss ,來查看套接字、網路 堆疊、網路介面以及路由表的資訊,
更推薦,使用 ss 來查詢網路的連接資訊,因為它比 netstat 提供了更好的性能(速 度更快),
比如,可以執行下面的命令,查詢套接字資訊:
#head-n3 表示只顯示前面 3 行
# -l 表示只顯示監聽套接字
# -n 表示顯示數字地址和埠 (而不是名字)
# -p 表示顯示行程資訊
netstat -nlp | head -n 3
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name
tcp 0 0 127.0.0.1:4171 0.0.0.0:* LISTEN 27737/nsqadmin
# -l 表示只顯示監聽套接字
# -t 表示只顯示 TCP 套接字
# -n 表示顯示數字地址和埠 (而不是名字)
# -p 表示顯示行程資訊
ss -ltnp | head -n 3
State Recv-Q Send-Q Local Address:Port Peer Address:PortProcess
LISTEN 0 128 127.0.0.1:4171 0.0.0.0:* users:(("nsqadmin",pid=27737,fd=3))
LISTEN 0 128 0.0.0.0:5355 0.0.0.0:* users:(("systemd-resolve",pid=1069,fd=13))
netstat 和 ss 的輸出也是類似的,都展示了套接字的狀態、接收佇列、發送佇列、本地地 址、遠端地址、行程 PID 和行程名稱等,
其中,接收佇列(Recv-Q)和發送佇列(Send-Q)需要你特別關注,它們通常應該是 0,當發現它們不是 0 時,說明有網路包的堆積發生,當然還要注意,在不同套接字 態下,它們的含義不同,
當套接字處于連接狀態(Established)時:
- Recv-Q 表示套接字緩沖還沒有被應用程式取走的位元組數(即接收佇列長度),
- 而 Send-Q 表示還沒有被遠端主機確認的位元組數(即發送佇列長度),
當套接字處于監聽狀態(Listening)時:
- Recv-Q 表示 syn backlog 的當前值,
- 而 Send-Q 表示最大的 syn backlog 值,
而 syn backlog 是 TCP 協議堆疊中的半連接佇列長度,相應的也有一個全連接佇列 (accept queue),它們都是維護 TCP 狀態的重要機制,
顧名思義,所謂半連接,就是還沒有完成 TCP 三次握手的連接,連接只進行了一半,而服 務器收到了客戶端的 SYN 包后,就會把這個連接放到半連接佇列中,然后再向客戶端發送 SYN+ACK 包,
而全連接,則是指服務器收到了客戶端的 ACK,完成了 TCP 三次握手,然后就會把這個 連接挪到全連接佇列中,這些全連接中的套接字,還需要再被 accept() 系統呼叫取走,這 樣,服務器就可以開始真正處理客戶端的請求了,
協議堆疊統計資訊
類似的,使用 netstat 或 ss ,也可以查看協議堆疊的資訊:
netstat -s
....
Tcp:
4138013 active connection openings
2699863 passive connection openings
238194 failed connection attempts
12231 connection resets received
109 connections established
214283494980 segments received
214307564519 segments sent out
3128429 segments retransmitted
141769 bad segments received
18919940 resets sent
InCsumErrors: 141765
....
ss -s
Total: 351
TCP: 138 (estab 110, closed 12, orphaned 0, timewait 7)
Transport Total IP IPv6
RAW 0 0 0
UDP 6 4 2
TCP 126 103 23
INET 132 107 25
FRAG 0 0 0
這些協議堆疊的統計資訊都很直觀,ss 只顯示已經連接、關閉、孤兒套接字等簡要統計,而 netstat 則提供的是更詳細的網路協議堆疊資訊,
比如,上面 netstat 的輸出示例,就展示了 TCP 協議的主動連接、被動連接、失敗重試、 發送和接收的分段數量等各種資訊,
網路吞吐和 PPS
如何查看系統當前的網路吞吐量和 PPS,在這里,推薦使用我們的老朋友 sar,在 CPU、記憶體和 I/O 模塊中,我們已經多次用到它,
給 sar 增加 -n 引數就可以查看網路的統計資訊,比如網路介面(DEV)、網路介面錯誤 (EDEV)、TCP、UDP、ICMP 等等,執行下面的命令,你就可以得到網路介面統計資訊:
# 數字 1 表示每隔 1 秒輸出一組資料
sar -n DEV 1
19時53分23秒 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil
19時53分24秒 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19時53分24秒 docker0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19時53分24秒 eth0 17.00 18.00 4.93 6.25 0.00 0.00 0.00 0.00
19時53分24秒 cni-podman0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
這兒輸出的指標比較多,我們來看一下它們的含義:
- rxpck/s 和 txpck/s 分別是接收和發送的 PPS,單位為包 / 秒,
- rxkB/s 和 txkB/s 分別是接收和發送的吞吐量,單位是 KB/ 秒,
- rxcmp/s 和 txcmp/s 分別是接收和發送的壓縮資料包數,單位是包 / 秒,
- %ifutil 是網路介面的使用率,即半雙工模式下為 (rxkB/s+txkB/s)/Bandwidth,而全雙 工模式下為 max(rxkB/s, txkB/s)/Bandwidth,
連通性和延時
最后,我們通常使用 ping ,來測驗遠程主機的連通性和延時,而這基于 ICMP 協議,比 如,執行下面的命令,你就可以測驗本機到 114.114.114.114 這個 IP 地址的連通性和延時:
# -c3 表示發送三次 ICMP 包后停止
ping -c3 114.114.114.114
PING 114.114.114.114 (114.114.114.114) 56(84) bytes of data.
64 bytes from 114.114.114.114: icmp_seq=1 ttl=84 time=159 ms
64 bytes from 114.114.114.114: icmp_seq=2 ttl=86 time=152 ms
64 bytes from 114.114.114.114: icmp_seq=3 ttl=71 time=86.1 ms
--- 114.114.114.114 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2000ms
rtt min/avg/max/mdev = 86.086/132.440/159.290/32.915 ms
ping 的輸出,可以分為兩部分,
- 第一部分,是每個 ICMP 請求的資訊,包括 ICMP 序列號(icmp_seq)、TTL(生存時 間,或者跳數)以及往返延時,
- 第二部分,則是三次 ICMP 請求的匯總,
比如上面的示例顯示,發送了 3 個網路包,并且接收到 3 個回應,沒有丟包發生,這說明 測驗主機到 114.114.114.114 是連通的;平均往返延時(RTT)是 159ms、152ms、86.1ms,也就是從發 送 ICMP 開始,到接收到 114.114.114.114 回復的確認,總共經歷 159ms、152ms、86.1ms,
總結
多臺服務器通過網卡、交換機、路由器等網路設備連接到一起,構成了相互連接的網路, 由于網路設備的異構性和網路協議的復雜性,國際標準化組織定義了一個七層的 OSI 網路 模型,但是這個模型過于復雜,實際作業中的事實標準,是更為實用的 TCP/IP 模型,
TCP/IP 模型,把網路互聯的框架,分為應用層、傳輸層、網路層、網路介面層等四層,這也是Linux 網路堆疊最核心的構成部分,
- 應用程式通過套接字介面發送資料包,先要在網路協議堆疊中從上到下進行逐層處理,最終再送到網卡發送出去,
- 而接收時,同樣先經過網路堆疊從下到上的逐層處理,最終才會送到應用程式,
我們通常使用帶寬、吞吐量、延時等指標,來衡量網路的性能;相應的,你可以用 ifconfig、netstat、ss、sar、ping 等工具,來查看這些網路的性能指標,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/291858.html
標籤:其他
上一篇:PyQt5入門:手把手教你配置環境,快速上手GUI程式開發(Anaconda+PyCharm+Qt Designer+pyuic)
