作業系統之網路系統-有解無憂

43 預習：Socket通信之網路協議基本原理
網路協議：一臺機器將內容按照約定好的格式發送出去，另外一臺機器收到后能按照約定格式決議，獲取到資訊，
兩種網路協議，
osi標準七層模型:物理層資料鏈路層網路層傳輸層會話層表示層應用層
TCP/IP模型：物理層 mac層 ip層傳輸層應用層(dns http)

具體如下圖：

為什么要分層呢？
同一套網路協議堆疊通過切分成多個層次和組合，來滿足不同服務器和設備的通信需求，

網路協議層次介紹
物理層：即物理設備，如連著電腦的網線、wifi
資料鏈路層：又稱mac層，因為每個網卡都有唯一的硬體地址，在該層IP地址經過ARP協議得到對應的mac地址，在網路內服務器匹配上廣播包對應的MAC地址就接收，
網路層：也就IP層，網路包從一個起始的IP地址，沿著路由協議指的道兒，經過多個網路，通過多次路由器轉發，到達目標IP地址，
傳輸層：協議包括UDP/TCP,TCP是可靠協議，通過重傳、編號等手段避免了丟包等問題，
應用層：如咱們在瀏覽器里面輸入的 HTTP，Java 服務端寫的 Servlet

應用層是用戶態的，二層到四層都是在Linux內核里面處理的，內核對于網路包的處理不區分內核應用，應用層則進行區分，如通過埠，nginx監聽80，tomcat監聽8080.

用戶態的應用層和內核2~4層的互通，就是通過socket系統呼叫，

資料包的傳輸程序
網路分完層后，對于資料包的發送和接收就是層層封裝與解封裝的程序，
在 Linux服務器B上部署的服務端Nginx， Linux 服務器 A 上的客戶端，打開一個 Firefox 連接 Ngnix，如下圖：

那么網路傳輸的具體流程：
1)在服務器A上，瀏覽器請求封裝為HTTP協議，通過Socket發送到A的內核，傳輸層將http包加上TCP頭發送給IP層，IP層加上IP頭發送給mac層，mac層加上mac頭，從硬體網卡發出去，
2）到達交換機，因只會處理到第二層所以被稱為二層設備，會將網路包的MAC頭拿下來，發現目標MAC是在自己右面的網口，于是就從這個網口發出去，
3）到達路由器，它左面的網卡會收到網路包，發現 MAC 地址匹配，就交給 IP 層，在 IP 層根據 IP 頭中的資訊，在路由表中查找，然后從合適的網口發出去，常把路由器稱為三層設備，因為它只會處理到第三層
4）交換機，還是會經歷一次二層的處理，轉發到交換機右面的網口，
5）linux服務器B，它發現 MAC 地址匹配，就將 MAC 頭取下來，交給上一層，IP 層發現 IP 地址匹配，將 IP 頭取下來，交給上一層，TCP 層會獲取TCP 頭中的資訊，內核會根據 TCP 頭中的埠號，將網路包發給相應的應用，
6）應用會決議HTTP 層的頭和正文，處理后獲取結果，然后仍然封裝為http的網路包，通過一系列程序回傳給客戶端，

43 socket通信
TCP/UDP的區別
1）TCP是面向連接的，UDP無連接
2）TCP通過編號、重試等是可靠傳輸，且提供流量控制和擁塞控制，UDP不可靠
3）TCP效率較低，
4）TCP是基于流的，UDP基于資料報
說明：所謂的連接，就是兩端資料結構狀態的協同，兩邊的狀態能夠對得上，可靠也是兩端的資料結構做的事情，如不丟失其實是資料結構在“點名”，順序到達其實是資料結構在“排序”，面向資料流其實是資料結構將零散的包，按照順序捏成一個流發給應用層，

socket操作tcp或udp，都要呼叫socket函式，如下：
int socket(int domain, int type, int protocol);
引數說明：
domain：表示使用什么 IP 層協議，AF_INET 表示 IPv4，AF_INET6 表示 IPv6，
type：表示 socket 型別，SOCK_STREAM，顧名思義就是 TCP 面向流的，SOCK_DGRAM 就是 UDP 面向資料報的，SOCK_RAW 可以直接操作 IP 層，或者非 TCP 和 UDP 的協議，例如 ICMP，
protocol 表示的協議，包括 IPPROTO_TCP、IPPTOTO_UDP，
函式功能：在內核中，創建一個 socket 的檔案描述符，后續的操作都會用到，

TCP下socket編程
整體流程如下圖：

0）服務端和客戶端分別呼叫socket函式，獲取socket檔案描述符
1）服務端呼叫bind函式，監聽一個埠，給socket賦一個ip地址和埠，這樣后面客戶端可以通過ip和埠訪問服務端，客戶端則不需要bind
說明：服務端所在的服務器可能有多個網卡、多個地址，可以選擇監聽在一個地址，也可以監聽 0.0.0.0 表示所有的地址都監聽，服務端一般要監聽在一個眾所周知的埠上，例如，Nginx 一般是 80，Tomcat 一般是 8080，
2）服務端呼叫listen進入LISTEN狀態，等待客戶端連接，
3）服務端呼叫 accept，等待內核完成了至少一個連接的建立，才回傳，如果有多個客戶端發起連接，并且在內核里面完成了多個三次握手，建立了多個連接，這些連接會被放在一個佇列里面，回圈呼叫accpet進行處理，
4）客戶端通過connect函式發起連接，指明要連接的 IP 地址和埠號，然后發起三次握手，握手成功后，服務端的 accept 就會回傳另一個 socket，
監聽的 socket 和真正用來傳送資料的 socket，是兩個 socket，一個叫作監聽 socket，一個叫作已連接 socket，
5）雙方開始通過 read 和 write 函式來讀寫資料

上面提到的三次握手如下圖:

為什么是三次握手，不是2次或四次？tcp的報文序號，三次握手和四次揮手_進化的深山猿-CSDN博客

UDP下的socket編程
如下圖：

UDP 是沒有連接的，所以不需要三次握手，也就不需要呼叫 listen 和 connect，但是 UDP 的互動仍然需要 IP 地址和埠號，因而也需要 bind，
每次通信時，呼叫 sendto 和 recvfrom，都要傳入 IP 地址和埠，

44 socket內核資料結構
socket函式決議
Socket系統呼叫會呼叫sock_create創建一個struct socket結構，然后通過sock_map_fd和檔案描述符對應起來，
引數：
先分配struct socket 結構，
family，表示地址族， net_families 陣列中以該引數為下標，找到對應的 struct net_proto_family，net_proto_family中會指定create函式的指向，
type，也即 Socket 的型別，型別是比較少的，包括SOCK_STREAM、SOCK_DGRAM 和 SOCK_RAW，type作為inetsw陣列下標，找到type對應的串列，根據protocol最終得到用戶指定的 family->type->protocol 的 struct inet_protosw *answer 物件，其ops賦給struct socket *sock 的 ops 成員變數，
然后創建一個 struct sock *sk 物件，說明：socket 是用于負責對上給用戶提供介面，并且和檔案系統關聯，而 sock，負責向下對接內核網路協議堆疊，
struct inet_protosw *answer 結構的 tcp_prot 賦值給了 struct sock *sk 的 sk_prot 成員，

protocol，是協議，協議數目是比較多的，也就是說，多個協議會屬于同一種型別，會回圈對應的鏈表，找到對應型別下對應協議的inetsw

決議bind函式
sockfd_lookup_light 會根據 fd 檔案描述符，找到 struct socket 結構，然后將 sockaddr 從用戶態拷貝到內核態，然后呼叫 struct socket 結構里面 ops 的 bind 函式，根據前面創建 socket 的時候的設定，呼叫的是 inet_stream_ops 的 bind 函式，即呼叫inet_bind,檢查埠是否沖突，是否可以系結，可以則進行系結，

決議listen函式
即呼叫 inet_listen，如果socket還不在TCP_LISTEN狀態，會呼叫inet_csk_listen_start進入監聽狀態，
在內核中，為每個Socket維護兩個佇列：
1)一個是已經建立了連接的佇列，這時候連接三次握手已經完畢，處于 established 狀態；即icsk_accept_queue
2）一個是還沒有完全建立連接的佇列，這個時候三次握手還沒完成，處于 syn_rcvd 的狀態，

初始化完之后，將 TCP 的狀態設定為 TCP_LISTEN，再次呼叫 get_port 判斷埠是否沖突，

決議accept函式
即呼叫inet_accept
原來的 socket 是監聽 socket，這里我們會找到原來的 struct socket，并基于它去創建一個新的 newsock，這才是連接socket，除此之外，我們還會創建一個新的 struct file 和 fd，并關聯到 socket，

如果 icsk_accept_queue 為空，則呼叫 inet_csk_wait_for_connect 進行等待；等待的時候，呼叫 schedule_timeout，讓出 CPU，并且將行程狀態設定為 TASK_INTERRUPTIBLE，
如果再次 CPU 醒來，我們會接著判斷 icsk_accept_queue 是否為空，同時也會呼叫 signal_pending 看有沒有信號可以處理，一旦 icsk_accept_queue 不為空，就從 inet_csk_wait_for_connect 中回傳，在佇列中取出一個 struct sock 物件賦值給 newsk，

決議connect函式
三次握手結束后，icsk_accept_queue 才不為空，下面分析三次握手的程序，

客戶端發送SYN：
三次握手由客戶端呼叫connect函式發起，呼叫inet_stream_connect，
如果socket處于SS_UNCONNECTED 狀態，呼叫tcp_v4_connect函式，主要作業如下：
1）ip_route_connect 其實是做一個路由的選擇，SYN 包了，這就要湊齊源地址、源埠、目標地址、目標埠，
2）發送 SYN 之前，我們先將客戶端 socket 的狀態設定為 TCP_SYN_SENT，然后初始化 TCP 的 seq num
3）呼叫 tcp_connect 進行發送SYN，會有重試機制，

服務端接受SYN:
通過struct net_protocol 結構中的 handler 進行接收，呼叫的函式是 tcp_v4_rcv，接下來的呼叫鏈為 tcp_v4_rcv->tcp_v4_do_rcv->tcp_rcv_state_process，
服務端處于TCP_LISTEN狀態，接收到SYN.
回復一個 SYN-ACK,呼叫 icsk->icsk_af_ops->conn_request 函式，其實呼叫的是 tcp_v4_conn_request-->tcp_conn_request
回復完畢后，服務端處于 TCP_SYN_RECV狀態

客戶端接收SYN-ACK網路包了：
都是 TCP 協議堆疊，所以程序和服務端沒有太多區別，還是會走到 tcp_rcv_state_process 函式的，此時客戶端目前處于 TCP_SYN_SENT 狀態，所以tcp_rcv_synsent_state_process 會呼叫 tcp_send_ack，發送一個 ACK-ACK，發送后客戶端處于 TCP_ESTABLISHED 狀態，

服務端接收ACK-ACK網路包
又tcp_rcv_state_process 函式處理，由于服務端目前處于狀態 TCP_SYN_RECV 狀態，因而又走了另外的分支，當收到這個網路包的時候，服務端也處于 TCP_ESTABLISHED 狀態，三次握手結束，

45-46 發送資料包
這個程序分成幾個層次：
VFS 層：write 系統呼叫找到 struct file，根據里面的 file_operations 的定義，呼叫 sock_write_iter 函式，sock_write_iter 函式呼叫 sock_sendmsg 函式，
Socket 層：從 struct file 里面的 private_data 得到 struct socket，根據里面 ops 的定義，呼叫 inet_sendmsg 函式，
Sock 層：從 struct socket 里面的 sk 得到 struct sock，根據里面 sk_prot 的定義，呼叫 tcp_sendmsg 函式，

TCP 層：tcp_sendmsg 函式會呼叫 tcp_write_xmit 函式，tcp_write_xmit 函式會呼叫 tcp_transmit_skb，在這里實作了 TCP 層面向連接的邏輯，

IP 層：擴展 struct sock，得到 struct inet_connection_sock，根據里面 icsk_af_ops 的定義，呼叫 ip_queue_xmit 函式，
IP 層：ip_route_output_ports 函式里面會呼叫 fib_lookup 查找路由表，FIB 全稱是 Forwarding Information Base，轉發資訊表，也就是路由表，
在 IP 層里面要做的另一個事情是填寫 IP 層的頭，
在 IP 層還要做的一件事情就是通過 iptables 規則，

MAC 層：IP 層呼叫 ip_finish_output 進行 MAC 層，
MAC 層需要 ARP 獲得 MAC 地址，因而要呼叫 ___neigh_lookup_noref 查找屬于同一個網段的鄰居，他會呼叫 neigh_probe 發送 ARP，
有了 MAC 地址，就可以呼叫 dev_queue_xmit 發送二層網路包了，它會呼叫 __dev_xmit_skb 會將請求放入佇列，

設備層：網路包的發送會觸發一個軟中斷 NET_TX_SOFTIRQ 來處理佇列中的資料，這個軟中斷的處理函式是 net_tx_action，
在軟中斷處理函式中，會將網路包從佇列上拿下來，呼叫網路設備的傳輸函式 ixgb_xmit_frame，將網路包發到設備的佇列上去，

47-48 接收資料包
整個程序可以分成以下幾個層次：
硬體網卡接收到網路包之后，通過 DMA 技術，將網路包放入 Ring Buffer；
硬體網卡通過中斷通知 CPU 新的網路包的到來；

網卡驅動程式會注冊中斷處理函式 ixgb_intr；
中斷處理函式處理完需要暫時屏蔽中斷的核心流程之后，通過軟中斷 NET_RX_SOFTIRQ 觸發接下來的處理程序；
NET_RX_SOFTIRQ 軟中斷處理函式 net_rx_action，net_rx_action 會呼叫 napi_poll，進而呼叫 ixgb_clean_rx_irq，從 Ring Buffer 中讀取資料到內核 struct sk_buff；
呼叫 netif_receive_skb 進入內核網路協議堆疊，進行一些關于 VLAN 的二層邏輯處理后，呼叫 ip_rcv 進入三層 IP 層；

在 IP 層，會處理 iptables 規則，然后呼叫 ip_local_deliver 交給更上層 TCP 層；

在 TCP 層呼叫 tcp_v4_rcv，這里面有三個佇列需要處理，如果當前的 Socket 不是正在被讀取，則放入 backlog 佇列，如果正在被讀取，不需要很實時的話，則放入 prequeue 佇列，其他情況呼叫 tcp_v4_do_rcv；
在 tcp_v4_do_rcv 中，如果是處于 TCP_ESTABLISHED 狀態，呼叫 tcp_rcv_established，其他的狀態，呼叫 tcp_rcv_state_process；
在 tcp_rcv_established 中，呼叫 tcp_data_queue，如果序列號能夠接的上，則放入 sk_receive_queue 佇列；如果序列號接不上，則暫時放入 out_of_order_queue 佇列，等序列號能夠接上的時候，再放入 sk_receive_queue 佇列，

至此內核接收網路包的程序到此結束，接下來就是用戶態讀取網路包的程序，這個程序分成幾個層次，
VFS 層：read 系統呼叫找到 struct file，根據里面的 file_operations 的定義，呼叫 sock_read_iter 函式，sock_read_iter 函式呼叫 sock_recvmsg 函式，
Socket 層：從 struct file 里面的 private_data 得到 struct socket，根據里面 ops 的定義，呼叫 inet_recvmsg 函式，
Sock 層：從 struct socket 里面的 sk 得到 struct sock，根據里面 sk_prot 的定義，呼叫 tcp_recvmsg 函式，
TCP 層：tcp_recvmsg 函式會依次讀取 receive_queue 佇列、prequeue 佇列和 backlog 佇列，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/310538.html

標籤：其他

上一篇：OSPF 5個包作用 lsa1，lsa2，lsa3，lsa4，lsa5，lsa7的介紹

下一篇：面試官問到薪資不等的三人：“談談自己對 binder 的理解？”