K8S環境下研發如何本地除錯?kt-connect使用詳解
背景
注:背景有點啰嗦,講講一路走來研發本地除錯的變化,嫌煩的可以直接跳過,不影響閱讀,
2019年
我在的公司當時是個什么情況,只有兩個Java應用,還都跑在一個Tomcat Servlet容器,

當時是如何本地除錯?都是研發自己電腦裝個Mysql,裝個Tomcat,自己電腦運行除錯,好處嘛就是后端研發互不干擾,想怎么改就怎么改,APP端研發就直連后端的筆記本除錯,上線部署嘛就是一個研發手動編譯個Jar包丟到云服務器上面,大體就是個草臺班子,能干活,但是也就那樣,
2020年
到了2020年,公司買了一臺服務器,Centos的系統,給裝上了Mysql、Tomcat,用上了Redis快取,RabbitMQ訊息佇列,有了獨立的測驗環境,用上了Jenkins自動打包并部署應用,也算鳥槍換炮,起碼不用自己打包了,

這個時候是如何本地除錯呢?起碼不用自己電腦裝Mysql了,后面框架由SpringMVC和Struts2都改成Spring Boot,外置的Tomcat也可以去掉了,后端研發本地運行Spring Boot時直連服務器的Mysql進行除錯,APP端再也不用連后端研發的筆記本了,有了相對穩定的除錯環境,代價就是各個后端的資料庫更新結構要保持兼容性,避免影響他人,
2021年
隨著業務增長,后端框架由Spring Boot進化為Spring Cloud全家桶,應用運行環境由Linux直接運行改為了Docker鏡像部署,各類中間件同樣也使用了Docker鏡像,產品線增加,單一的開發分支已經不能滿足需求,為此又開辟了另外一條后端代碼分支,同樣的開發測驗環境也多了一份,

這個時候的本地除錯,對于APP端來說變化不大,區別連接后端不同環境使用不同域名而已,對于后端的研發同學就不一樣了,每次本地除錯自己電腦要常駐一個Eureka和一個Config Server,如果本地除錯的微服務依賴比較多,沒個大記憶體真是頂不住,
2022年
業務量繼續增加,產品同事數量增加了,那個需求量真是堆積如山,兩個分支已經不能滿足要求了,又開了第三個分支,還是不夠,每次增加新的分支運行環境,后端研發同學也很痛苦,一堆環境和第三方平臺回呼需要配置,為了能動態擴容縮容,Spring Cloud全家桶繼續演進,拋棄了Zuul網關和Eureka,改為使用Spring Cloud Kubernetes,運行環境全面向K8S靠攏,在此期間公司又采購了一臺服務器用于開發測驗,記憶體CPU磁盤滿上!

進入K8S時代,后端研發本地的電腦沒辦法隨意連接Linux服務器上面的各種中間件,每個新分支環境里面的每個POD都是一個新的ip,也不可能像之前那樣開放指定幾個中間件的埠給后端連接,那么多環境每個都做設定的話,運維同學整天不用干別的事了,也由此引出了今天要說的kt-connect工具,通過這個工具,后端研發本地的電腦可以代理訪問到各個分支環境,也就是K8S里面的命名空間的所有服務,并且只需要啟動需要除錯的服務,大大節省了電腦CPU記憶體占用,
選型
在選擇代理訪問K8S環境以便于本地除錯的工具中,網上有幾種,
1. 埠轉發
使用Ingress、NodePort、LoadBalancer之類的將流量轉發到指定埠,如上文所說,會讓運維同學作業量比較大,也不便于分支環境的自動創建和回收,只適合需要暴露埠數量不多的場景,
2. VPN
通過在K8S每個命名空間里面設定一個運行有VPN服務的POD,后端研發筆記本通過VPN客戶端連接代理進入到指定命名空間,可以正常訪問和決議集群內各類服務,基本能滿足日常的要求,缺點是每個命名空間都常駐了一個VPN服務的運行資源,
3. Telepresence
在搜索的程序中發現了這個代理工具,幾乎可以說9成的中英文技術文章都推薦使用這個工具,功能非常強大,不但提供了VPN所具有的代理功能,可以訪問到命名空間內所有服務,還能指定各種規則攔截指定服務的流量到本地機器,相當于本地機器也能作為一個普通的POD提供對外服務,大體設計原理如下:

在研發本地電腦執行如下命令
telepresence helm install --kubeconfig .\kubeconfig
telepresence connect ---kubeconfig .\kubeconfig
就會自動在K8S集群創建一個命名空間ambassador,并且部署一個traffic-manager的pod,用于流量管理,而在研發筆記本本地則會啟動2個daemon服務,其中一個叫Root Daemon,用于建立一條雙向代理通道,并管理本地電腦與K8S集群之間的流量,另外一個User Daemon則是負責與Traffic Manager通信,設定攔截規則,如果登錄后還負責與Ambassador Cloud進行通信,
通過配置攔截規則,攔截的POD里面會安裝一個traffic-agent,官方檔案說明是類似K8S集群的sidecar模式,對注入POD進行流量劫持,所有流量出入通過traffic-manager進行重新路由,
The Traffic Agent is a sidecar container that facilitates intercepts. When an intercept is first started, the Traffic Agent container is injected into the workload's pod(s).
雖然他的功能很強大,但是在目前2.5版本的使用程序中,為了使用他的攔截和Preview Url功能必須在他家的商業云平臺Ambassador Cloud進行注冊登陸(注:不知道為什么網上技術文章都沒提到這點,測驗的時候非得要登錄他家云平臺),并且攔截規則的配置是通過云平臺的網頁進行操作的,聯網的要求,包括可能存在的安全,泄露之類的隱患,我覺得是不可接受,也因此不得不放棄使用這個工具,
還有一個不得不說的缺點就是,老版本使用后可以清理掉自動創建的命名空間(namespace)和pod、攔截agent的功能(telepresence uninstall)也沒了,在2.5版本的命令引數里面完全消失了,這就導致每次使用后,如果想保持環境干凈,還得麻煩運維同學去清理掉,非常麻煩,簡直逼死潔癖患者,
4. kt-connect
所幸開源社區又找到了另外一款類似Telepresence的工具,名為kt-connect,使用版本為v0.3.6(順便說下我們使用的K8S版本是1.24),并且它無需聯網登陸什么賬號,結束命令執行默認還會自動清理,阿里出品,不確定是不是又一個KPI開源專案,但是至少這一刻我對這個工具是非常滿意的,
原理
同Telepresence類似,但不同的是,kt-connect只會在指定連接的命名空間(namespace)里面新建一個自用的pod,然后部署一個kt-connect-shadow的鏡像,相比Telepresence,它在模式進行了細分擴展,分為四大模式:
1. Connect模式
ktctl.exe connect --kubeconfig .\kubeconfig --namespace feature-N --debug
這個模式下,kt-connect起到的是一個類似于VPN的作用,研發本地電腦可以訪問到連接的命名空間(namespace)內的所有服務,但是并沒有加到集群里面其他服務里面,其他服務的流量并不會轉發到本地電腦,
注1:與telepresence類似,kt-connect所有命令都要帶上--kubeconfig,確保有足夠權限和能正確連接K8S集群的API Server,很多文章都很少提到這點,假如K8S集群限制權限,或者與研發不在同一個網路,必須確保使用運維同學提供的有足夠權限的授權檔案kubeconfig來進行連接,
注2:
Failed to setup port forward local:28344 -> pod kt-connect-shadow-gseak:53 error="error upgrading connection: error sending request: Post "https://10.0.8.101:8443/api/v1/namespaces/feature-N/pods/kt-connect-shadow-gseak/portforward": dial tcp 10.0.8.101:8443: connectex: A socket operation was attempted to an unreachable host.",
如果出現以上報錯的話,有可能是kt-connect路由BUG,可能本地電腦的路由與新加的通往API Server的路由有沖突,增加引數--excludeIps 10.0.8.101/32即可,如果網段沖突比較多,可以擴大網段范圍,例如--excludeIps 10.0.8.0/24 參考issue-302,
ktctl.exe connect --kubeconfig .\kubeconfig --namespace feature-N --excludeIps 10.0.8.101/32 --debug
2. Exchange模式
ktctl.exe exchange serviceA --kubeconfig .\kubeconfig --namespace feature-N --expose 12001 --debug
這個模式類似于Telepresence攔截模式,將指定服務的所有流量攔截下來轉發到研發本地電腦的埠,使用這個模式能對環境里的訪問請求直接進行除錯,
具體原理就是將service里面的pod替換成一個serviceA-kt-exchange的pod,
注1:Exchange模式的流量方向是單向的,并不會將本地電腦主動發起的請求代理過去,如果K8S集群跟研發本地電腦不在一個網段內,需要另外開一個命令列運行Connect模式,確保本地服務可以正常連接K8S集群的其他服務,參考issue-216,
注2:Exchange模式是通過攔截service進行流量轉發,假如集群的請求沒有經過service,例如直接決議到pod之類,可能就會出現攔截失敗的情況(同理Mesh模式也是如此),所以出現問題記得跟運維同學確認K8S集群內的路由情況,
3. Mesh模式
kctl.exe mesh serviceA --kubeconfig .\kubeconfig --namespace feature-N --expose 12001 --debug
執行命令后可以看到輸出日志里面包含類似文字:
2:30PM INF Now you can access your service by header 'VERSION: xxxxx'
這個模式本地電腦的服務和K8S集群里面相同的服務同時對外回應請求,但是只有通過指定的http請求頭VERSION: xxxx的請求才會轉發到本地電腦,相比Exchange模式,保證了其他人服務正常使用,同時研發又能進行本地除錯,每次生成的請求頭VERSION的值都是動態生成的,如果要固定這個值,可以通過引數--versionMark寫死,例如固定值為test-version,命令如下:
kctl.exe mesh serviceA --kubeconfig .\kubeconfig --namespace feature-N --expose 12001 --debug --versionMark test-version
具體原理就是將serviceA里面的Pod替換成一個serviceA-kt-router的路由鏡像,負責根據請求頭進行流量代理轉發,另外生成一個serviceA-kt-stuntman服務,這個就是線上正常運行的serviceA,還有一個serviceA-kt-mesh-xxxxx服務,這個就負責將代理流量到本地電腦,
4. Preview模式
kctl.exe preview serviceB --kubeconfig .\kubeconfig --namespace feature-N --expose 12001
不同于Exchange和Mesh模式要求K8S集群有一個在運行的服務,Preview模式可以將本地電腦運行的程式部署到K8S集群中作為一個全新的Service對外提供服務,非常便于新建服務的開發除錯、預覽等作用,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/505514.html
標籤:其他
