Istio 運維實戰系列（3）：讓人頭大的『無頭服務』-下-有解無憂

本系列文章將介紹用戶從 Spring Cloud，Dubbo 等傳統微服務框架遷移到 Istio 服務網格時的一些經驗，以及在使用 Istio 程序中可能遇到的一些常見問題的解決方法，

失敗的 Eureka 心跳通知

在上一篇文章中，我們介紹了 Headless Service 和普通 Service 的區別，由于 Headless Service 的特殊性，在 Istio 下發給 Envoy Sidecar 的配置中，此類服務的配置引數和其他服務的引數有所不同，除了我們上次遇到的 mTLS 故障之外，這些差異可能還會導致應用出現一些其他意想不到的情況，

這次遇到的問題現象是：在 Spring Cloud 應用遷移到 Istio 中后，服務提供者向 Eureka Server 發送心跳失敗，

備注：Eureka Server 采用心跳機制來判定服務的健康狀態，服務提供者在啟動后，周期性（默認30秒）向Eureka Server發送心跳，以證明當前服務是可用狀態，Eureka Server在一定的時間（默認90秒）未收到客戶端的心跳，則認為服務宕機，注銷該實體，

查看應用程式日志，可以看到 Eureka 客戶端發送心跳失敗的相關日志資訊，

2020-09-24 13:32:46.533 ERROR 1 --- [tbeatExecutor-0] com.netflix.discovery.DiscoveryClient    : DiscoveryClient_EUREKA-TEST-CLIENT/eureka-client-544b94f967-gcx2f:eureka-test-client - was unable to send heartbeat!

com.netflix.discovery.shared.transport.TransportException: Cannot execute request on any known server
	at com.netflix.discovery.shared.transport.decorator.RetryableEurekaHttpClient.execute(RetryableEurekaHttpClient.java:112) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at com.netflix.discovery.shared.transport.decorator.EurekaHttpClientDecorator.sendHeartBeat(EurekaHttpClientDecorator.java:89) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at com.netflix.discovery.shared.transport.decorator.EurekaHttpClientDecorator$3.execute(EurekaHttpClientDecorator.java:92) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at com.netflix.discovery.shared.transport.decorator.SessionedEurekaHttpClient.execute(SessionedEurekaHttpClient.java:77) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at com.netflix.discovery.shared.transport.decorator.EurekaHttpClientDecorator.sendHeartBeat(EurekaHttpClientDecorator.java:89) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at com.netflix.discovery.DiscoveryClient.renew(DiscoveryClient.java:864) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at com.netflix.discovery.DiscoveryClient$HeartbeatThread.run(DiscoveryClient.java:1423) ~[eureka-client-1.9.13.jar!/:1.9.13]
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:515) ~[na:na]
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264) ~[na:na]
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1130) ~[na:na]
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:630) ~[na:na]
	at java.base/java.lang.Thread.run(Thread.java:832) ~[na:na]

過期的 IP 地址

對于請求失敗類的故障，我們首先可以通過 Envoy 的訪問日志查看失敗原因，通過下面的命令查看客戶端 Envoy Sidecar 的日志：

k logs -f eureka-client-66f748f84f-vvvmz -c eureka-client -n eureka

從 Envoy 日志中可以查看到客戶端通過 HTTP PUT 向服務器發出的心跳請求，該請求的 Response 狀態碼為 "UF,URX"，表示其 Upstream Failure，即連接上游服務失敗，在日志中還可以看到，在連接失敗后，Envoy 向客戶端應用回傳了一個 "503" HTTP 錯誤碼，

[2020-09-24T13:31:37.980Z] "PUT /eureka/apps/EUREKA-TEST-CLIENT/eureka-client-544b94f967-gcx2f:eureka-test-client?status=UP&lastDirtyTimestamp=1600954114925 HTTP/1.1" 503 UF,URX "-" "-" 0 91 3037 - "-" "Java-EurekaClient/v1.9.13" "1cd54507-3f93-4ff3-a93e-35ead11da70f" "eureka-server:8761" "172.16.0.198:8761" outbound|8761||eureka-server.eureka.svc.cluster.local - 172.16.0.198:8761 172.16.0.169:53890 - default

從日志中可以看到訪問的 Upstream Cluster 是 outbound|8761||eureka-server.eureka.svc.cluster.local ，Envoy 將該請求轉發到了 IP地址為 172.16.0.198 的 Upstream Host，

查看集群中部署的服務，可以看到 eureka-server 是一個 Headless Service，

HUABINGZHAO-MB0:eureka-istio-test huabingzhao$ k get svc -n eureka -o wide
NAME            TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)    AGE   SELECTOR
eureka-server   ClusterIP   None         <none>        8761/TCP   17m   app=eureka-server

在本系列的上一篇文章『Istio 運維實戰系列（2）：讓人頭大的『無頭服務』-上』中，我們了解到 Headless Service 并沒有 Cluster IP，DNS 會直接將 Service 名稱決議到 Service 后端的多個 Pod IP 上，Envoy 日志中顯示連接 Eureka Server地址 172.16.0.198 失敗，我們來看看這個 IP 來自哪一個 Eureka Server 的 Pod ，

HUABINGZHAO-MB0:eureka-istio-test huabingzhao$ k get pod -n eureka -o wide | grep eureka-server
NAME                             READY   STATUS    RESTARTS   AGE     IP             NODE        NOMINATED NODE   READINESS GATES
eureka-server-0                  1/1     Running   0          6h55m   172.16.0.59    10.0.0.15   <none>           <none>
eureka-server-1                  1/1     Running   0          6m1s    172.16.0.200   10.0.0.7    <none>           <none>
eureka-server-2                  1/1     Running   0          6h56m   172.16.1.3     10.0.0.14   <none>           <none>

從上面的命令輸出中可以看到 Eureka 集群中有三個服務器，但沒有哪一個服務器的 Pod IP 是 Envoy 日志中顯示的 172.16.0.198，進一步分析發現 eureka-server-1 Pod 的啟動時間比客戶端的啟動時間晚很多，初步懷疑 Envoy 采用了一個已經被銷毀的 Eureka Server 的 IP 進行訪問，導致訪問失敗，

通過查看 Envoy dump 檔案中 outbound|8761||eureka-server.eureka.svc.cluster.local 的相關配置，進一步加深了我對此的懷疑，從下面的 yaml 片段中可以看到該 Cluster 的型別為 “ORIGINAL_DST”，

{
     "version_info": "2020-09-23T03:57:03Z/27",
     "cluster": {
      "@type": "type.googleapis.com/envoy.api.v2.Cluster",
      "name": "outbound|8761||eureka-server.eureka.svc.cluster.local",
      "type": "ORIGINAL_DST",  # 該選項表明 Enovy 在轉發請求時會直接采用 downstream 原始請求中的地址，
      "connect_timeout": "1s",
      "lb_policy": "CLUSTER_PROVIDED",
   ...

}

根據 Envoy 的檔案說明，“ORIGINAL_DST” 的解釋為：

In these cases requests routed to an original destination cluster are forwarded to upstream hosts as addressed by the redirection metadata, without any explicit host configuration or upstream host discovery.

即對于“ORIGINAL_DST” 型別的 Cluster，Envoy 在轉發請求時會直接采用 downstream 請求中的原始目的地 IP 地址，而不會采用服務發現機制，Istio 中 Envoy Sidecar 的該處理方式和 K8s 對 Headless Service 的處理是類似的，即由客戶端根據 DNS 直接選擇一個后端的 Pod IP，不會采用負載均衡演算法對客戶端的請求進行重定向分發，但讓人疑惑的是：為什么客戶端通過 DNS 查詢得到的 Pod 地址 172.16.0.198 訪問失敗了呢？這是由于客戶端查詢 DNS 時得到的地址在訪問期間已經不存在了，下圖解釋了導致該問題的原因：

Client 查詢 DNS 得到 eureka-server 的三個IP地址，
Client 選擇 Server-1 的 IP 172.16.0.198 發起連接請求，請求被 iptables rules 攔截并重定向到了客戶端 Pod 中 Envoy 的 VirtualInbound 埠 15001，
在收到 Client 的連接請求后，根據 Cluster 的配置，Envoy 采用請求中的原始目的地址 172.16.0.198 連接 Server-1，此時該 IP 對應的 Pod 是存在的，因此 Envoy 到 Server-1 的鏈接創建成功，Client 和 Envoy 之間的鏈接也會建立成功，Client 在創建鏈接時采用了 HTTP Keep Alive 選項，因此 Client 會一直保持該鏈接，并通過該鏈接以 30 秒間隔持續發送 HTTP PUT 服務心跳通知，
由于某些原因，該 Server-1 Pod 被 K8s 重建為 Server-1?，IP 發生了變化，
當 Server-1 的 IP 變化后，Envoy 并不會立即主動斷開和 Client 端的鏈接，此時從 Client 的角度來看，到 172.16.0.198 的 TCP 鏈接依然是正常的，因此 Client 會繼續使用該鏈接發送 HTTP 請求，同時由于 Cluster 型別為 “ORIGINAL_DST” ，Envoy 會繼續嘗試連接 Client 請求中的原始目的地址 172.16.0.198，如圖中藍色箭頭所示，但是由于該 IP 上的 Pod 已經被銷毀，Envoy 會連接失敗，并在失敗后向 Client 端回傳一個這樣的錯誤資訊：“upstream connect error or disconnect/reset before headers. reset reason: connection failure HTTP/1.1 503” ，如果 Client 在收到該錯誤后不立即斷開并重建鏈接，那么直到該鏈接超時之前，Client 都不會重新查詢 DNS 獲取到 Pod 重建后的正確地址，

為 Headless Service 啟用 EDS

從前面的分析中我們已經知道出錯的原因是由于客戶端 HTTP 長鏈接中的 IP 地址過期導致的，那么一個最直接的想法就是讓 Envoy 采用正確的 IP 地址去連接 Upstream Host，在不修改客戶端代碼，不重建客戶端鏈接的情況下，如何才能實作呢？

如果對比一個其他服務的 Cluster 配置，可以看到正常情況下，Istio 下發的配置中，Cluster 型別為 EDS （Endopoint Discovery Service），如下面的 yaml 片段所示：

 {
  "version_info": "2020-09-23T03:02:01Z/2",
  "cluster": {
   "@type": "type.googleapis.com/envoy.config.cluster.v3.Cluster",
   "name": "outbound|8080||http-server.default.svc.cluster.local",
   "type": "EDS",       # 普通服務采用 EDS 服務發現，根據 LB 演算法從 EDS 下發的 endpoint 中選擇一個進行連接
   "eds_cluster_config": {
    "eds_config": {
     "ads": {},
     "resource_api_version": "V3"
    },
    "service_name": "outbound|8080||http-server.default.svc.cluster.local"
   },
  ...

 }

在采用 EDS 的情況下，Envoy 會通過 EDS 獲取到該 Cluster 中所有可用的 Endpoint，并根據負載均衡演算法（預設為 Round Robin）將 Downstream 發來的請求發送到不同的 Endpoint，因此只要把 Cluster 型別改為 EDS，Envoy 在轉發請求時就不會再采用請求中錯誤的原始 IP 地址，而會采用 EDS 自動發現到的 Endpoint 地址，采用 EDS 的情況下，本例的中的訪問流程如下圖所示：

通過查閱 Istio 原始碼，可以發現 Istio 對于 Headless Service 預設采用了 "ORIGINAL_DST" 型別的 Cluster，但我們也可以通過設定一個 Istiod 的環境變數 PILOT_ENABLE_EDS_FOR_HEADLESS_SERVICES 為 Headless Service 強制啟用 EDS ，

func convertResolution(proxy *model.Proxy, service *model.Service) cluster.Cluster_DiscoveryType {
	switch service.Resolution {
	case model.ClientSideLB:
		return cluster.Cluster_EDS
	case model.DNSLB:
		return cluster.Cluster_STRICT_DNS
	case model.Passthrough: // Headless Service 的取值為 model.Passthrough
		if proxy.Type == model.SidecarProxy {
            // 對于 Sidecar Proxy，如果 PILOT_ENABLE_EDS_FOR_HEADLESS_SERVICES 的值設為 True，則啟用 EDS，否則采用 ORIGINAL_DST
			if service.Attributes.ServiceRegistry == string(serviceregistry.Kubernetes) && features.EnableEDSForHeadless {
				return cluster.Cluster_EDS
			}

			return cluster.Cluster_ORIGINAL_DST
		}
		return cluster.Cluster_EDS
	default:
		return cluster.Cluster_EDS
	}
}

在將 Istiod 環境變數 PILOT_ENABLE_EDS_FOR_HEADLESS_SERVICES 設定為 true 后，再查看 Envoy 的日志，可以看到雖然請求原始 IP 地址還是 172.16.0.198，但 Envoy 已經把請求分發到了實際可用的三個 Server 的 IP 上，

[2020-09-24T13:35:28.790Z] "PUT /eureka/apps/EUREKA-TEST-CLIENT/eureka-client-544b94f967-gcx2f:eureka-test-client?status=UP&lastDirtyTimestamp=1600954114925 HTTP/1.1" 200 - "-" "-" 0 0 4 4 "-" "Java-EurekaClient/v1.9.13" "d98fd3ab-778d-42d4-a361-d27c2491eff0" "eureka-server:8761" "172.16.1.3:8761" outbound|8761||eureka-server.eureka.svc.cluster.local 172.16.0.169:39934 172.16.0.198:8761 172.16.0.169:53890 - default
[2020-09-24T13:35:58.797Z] "PUT /eureka/apps/EUREKA-TEST-CLIENT/eureka-client-544b94f967-gcx2f:eureka-test-client?status=UP&lastDirtyTimestamp=1600954114925 HTTP/1.1" 200 - "-" "-" 0 0 1 1 "-" "Java-EurekaClient/v1.9.13" "7799a9a0-06a6-44bc-99f1-a928d8576b7c" "eureka-server:8761" "172.16.0.59:8761" outbound|8761||eureka-server.eureka.svc.cluster.local 172.16.0.169:45582 172.16.0.198:8761 172.16.0.169:53890 - default
[2020-09-24T13:36:28.801Z] "PUT /eureka/apps/EUREKA-TEST-CLIENT/eureka-client-544b94f967-gcx2f:eureka-test-client?status=UP&lastDirtyTimestamp=1600954114925 HTTP/1.1" 200 - "-" "-" 0 0 2 1 "-" "Java-EurekaClient/v1.9.13" "aefb383f-a86d-4c96-845c-99d6927c722e" "eureka-server:8761" "172.16.0.200:8761" outbound|8761||eureka-server.eureka.svc.cluster.local 172.16.0.169:60794 172.16.0.198:8761 172.16.0.169:53890 - default

神秘消失的服務

在將 Eureka Server Cluster 的型別從 ORIGINAL_DST 改為 EDS 之后，之前心跳失敗的服務正常了，但過了一段時間后，發現原來 Eureka 中注冊的部分服務下線，導致服務之間無法正常訪問，查詢 Eureka Server 的日志，發現日志中有如下的錯誤：

2020-09-24 14:07:35.511  WARN 6 --- [eureka-server-3] c.netflix.eureka.cluster.PeerEurekaNode  : EUREKA-SERVER-2/eureka-server-2.eureka-server.eureka.svc.cluster.local:eureka-server-2:8761:[email protected]: missing entry.
2020-09-24 14:07:35.511  WARN 6 --- [eureka-server-3] c.netflix.eureka.cluster.PeerEurekaNode  : EUREKA-SERVER-2/eureka-server-2.eureka-server.eureka.svc.cluster.local:eureka-server-2:8761:[email protected]: cannot find instance

從日志中我們可以看到多個 Eureka Server 之間的資料同步發生了錯誤，當部署為集群模式時，Eureka 集群中的多個實體之間會進行資料同步，本例中的 Eureka 集群中有三個實體，這些實體之間的資料同步如下圖所示：

當改用 EDS 之后，當集群中的每一個 Eureka Server 向集群中的其他 Eureka Server 發起資料同步時，這些請求被請求方 Pod 中的 Envoy Sidecar 采用 Round Robin 進行了隨機分發，導致同步訊息發生了紊亂，集群中每個服務器中的服務注冊訊息不一致，導致某些服務被誤判下線，該故障現象比較隨機，經過多次測驗，我們發現在 Eureka 中注冊的服務較多時更容易出現改故障，當只有少量服務時不容易復現，

找到原因后，要解決該問題就很簡單了，我們可以通過將 Eureka Server 的 Sidecar Injection 設定為 false 來規避該問題，如下面的 yaml 片段所示：

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: eureka-server
spec:
  selector:
    matchLabels:
      app: eureka-server
  serviceName: "eureka-server"
  replicas: 3
  template:
    metadata:
      labels:
        app: eureka-server
      annotations:
        sidecar.istio.io/inject: "false"  # 不為 eureka-server pod 注入 Envoy Siedecar
    spec:
      containers:
      - name: eureka-server
        image: zhaohuabing/eureka-test-service:latest
        ports:
        - containerPort: 8761
          name: http

反思

對于 Headless Service，Istio 預設采用 “ORIGINAL_DST” 型別的 Cluster，要求 Envoy Sidecar 在轉發時采用請求原始目的 IP 地址的行為其實是合理的，如同我們在本系列的上一篇文章『Istio 運維實戰系列（2）：讓人頭大的『無頭服務』-上』所介紹的，Headless Service 一般用于定義有狀態的服務，對于有狀態的服務，需要由客戶端根據應用特定的演算法來自行決定訪問哪一個后端 Pod，因此不應該在這些 Pod 前加一個負載均衡器，

在本例中，由于 Eureka 集群中各個節點之間會對收到的客戶端服務心跳通知進行同步，因此對于客戶端來說，將心跳通知發送到哪一個 Eureka 節點并不重要，我們可以認為 Eureka 集群對于外部客戶端而言是無狀態的，因此設定 PILOT_ENABLE_EDS_FOR_HEADLESS_SERVICES 環境變數，在客戶端的 Envoy Sidecar 中對客戶端發往 Eureka Server 的請求進行負載均衡是沒有問題的，但是由于 Eureka 集群內部的各個節點之間的是有狀態的，修改后影響了集群中各個 Eureka 節點之間的資料同步，導致了后面部分服務錯誤下線的問題，對于引發的該問題，我們通過去掉 Eureka Server 的 Sidecar 注入來進行了規避，

對于該問題，更合理的處理方法是 Envoy Sidecar 在嘗試連接 Upstream Host 失敗一定次數后主動斷開和客戶端側的鏈接，由客戶端重新查詢 DNS，獲取正確的 Pod IP 來創建新的鏈接，經過測驗驗證，Istio 1.6 及之后的版本中，Envoy 在 Upstream 鏈接斷開后會主動斷開和 Downstream 的長鏈接，建議盡快升級到 1.6 版本，以徹底解決本問題，也可以直接采用騰訊云上的云原生 Service Mesh 服務 TCM（Tencent Cloud Mesh），為微服務應用快速引入 Service Mesh 的流量管理和服務治理能力，而無需再關注 Service Mesh 基礎設施自身的安裝、維護、升級等事項，

參考檔案

All about ISTIO-PROXY 5xx Issues
Service Discovery: Eureka Server
Istio 運維實戰系列（2）：讓人頭大的『無頭服務』-上
Eureka 心跳通知問題測驗原始碼

【騰訊云原生】云說新品、云研新術、云游新活、云賞資訊，掃碼關注同名公眾號，及時獲取更多干貨！！

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/139697.html

標籤：其他

上一篇：Unity周記: 2020.09.21-09.27

下一篇：微型斷路器的選擇使用