主頁 >  其他 > K8s 生產最佳實踐-限制 NameSpace 資源用量

K8s 生產最佳實踐-限制 NameSpace 資源用量

2022-11-13 07:18:47 其他

前言

想象一下這個場景:多個系統運行在同一套 K8s 集群上,有重要系統,也有不太重要的系統,但是某一天,某個不重要的系統突然占用了該 K8s 集群的所有資源,導致該集群上的其他系統的正常運行受到影響,本文介紹了 Kubernetes 平臺如何管理容量,以及作者對管理員的注意事項和建議,

Kubernetes 資源限制概述

我們壽險了解 Kubernetes 平臺如何在容器和節點級別應用資源約束, 為了討論合理規模,我們將專門關注 CPU 和記憶體,盡管還有其他因素需要考慮,

可以為每個容器和 Pod 指定 resource requests 和 limits, Requests 是為 pod 預留的有保證的資源,而 limits 則是旨在保護集群整體架構的安全措施, 在 Kubernetes 中,pod 的 requests 和 limits 之間的關系被配置為服務質量(QoS), 在節點上,kubelet(可以監控資源的代理)將此資訊傳遞給容器運行時,容器運行時使用內核 cgroups 來應用資源約束,

要調度新的 pod,Kubernetes 調度程式將確定可用節點上的有效位置,并考慮現有 pod 資源限制, Kubernetes 會預配置一些系統預留,以留出資源供作業系統和 Kubernetes 系統組件使用(具體如下圖), 剩余量被定義為可分配的,調度程式將其視為節點的容量, 調度器可以基于所有單元的合計資源請求來調度單元到節點的容量, 請注意,所有單元的聚合資源限制可以大于節點容量,這種做法稱為超額使用(超配 or 超賣),

K8s Node 資源分配

在管理節點容量時,我們要盡量避免兩種情況, 在第一種情況下,實際記憶體利用率達到容量,并且 kubelet 基于驅逐信號觸發節點壓力驅逐, 如果節點在 kubelet 可以回收記憶體之前用完記憶體,則節點 oom-killer 將做出回應,根據從每個 pod 的 QoS 計算的 oom_score_adj 值選擇要洗掉的 pod, 因此,構成這些 pod 的應用程式會受到影響,

在 CPU 上過量使用的底層機制與記憶體的行為不同,因為它將 CPU 時間分配給各個容器, 高 CPU 利用率會導致 CPU 節流 (CPU throttling),但不會觸發節點壓力驅逐,也不會自動導致 Kubernetes 終止 Pod, 但是也請注意,CPU 耗盡仍可能導致應用程式 pod 降級、活動探測失敗并重新啟動,

我們還希望避免另一種情況, 在節點級別,requests 是有保證的資源,并且必須小于容量,因為 Kubernetes 調度程式不會超額預訂, 如果 requests 明顯且始終大于實際使用的資源,則多余的容量基本上未被使用, 雖然可能需要為高峰處理時間保留資源,但管理員應在這一點與運行可能不需要的過剩容量的重復成本之間進行平衡, 根據實際使用情況配置請求是一種平衡行為,應考慮應用程式的風險管理(平衡可用性和成本).

Kubernetes 管理員能做啥

Kubernetes 管理員的一個主要關注點是管理和合理調整集群容量,我們可以在 Web 上利用 Prometheus + Grafana 儀表盤和命令列捕獲集群利用率指標,供管理員使用,

但是 Kubernetes 管理員還面臨一個棘手的大問題:正在運行的應用程式(的資源管理), 解決特定問題的應用程式可以由不同的開發人員以不同的方式撰寫,從而導致不同的性能(比如 java 撰寫的可能消耗記憶體較多,golang 消耗記憶體相對較少), 每個應用程式都是獨特的,沒有一種適合所有應用程式的方法, 管理員對開發人員的應用程式的控制能力較弱,在大型企業中,單個管理團隊可能很難接觸到眾多的開發團隊, 因此,管理員的重點應該是設定護欄,以允許開發人員(在護欄內)調整自己的應用程式,

配置 LimitRange

繞了這么久,終于進入正題了,

為此,管理員可以為每個 NameSpace 配置不同的 LimitRanges,為開發人員提供針對各個容器和 pod 的建議大小限制, 以下是 LimitRange 的示例, 由于每個集群和應用程式都有不同的業務和風險要求,因此各位讀者實際應用時數字會有所不同,

apiVersion: v1
kind: LimitRange
metadata:
  name: "resource-limits"
spec:
  limits:
  - max:
      cpu: "2"
      memory: 4Gi
    min:
      cpu: 125m
      memory: 128Mi
    type: Pod
  - default:
      cpu: "0.5"
      memory: 1Gi
    defaultRequest:
      cpu: 250m
      memory: 256Mi
    max:
      cpu: "2"
      memory: 4Gi
    maxLimitRequestRatio:
      cpu: "25"
      memory: "4"
    min:
      cpu: 125m
      memory: 128Mi
    type: Container

在 Kubernetes 中進行開發的良好實踐是創建微服務應用程式,而不是大型的巨石應用程式, 為了鼓勵微服務的開發,應該應用 limits 來約束 pod 的最大大小, 節點的物理容量可能會決定此最大大小,因為它應該可以輕松地容納幾個最大的 pod, 還是類似這個圖:

1 個 K8s node 應該可以輕松地容納幾個最大的 pod

讓我們繼續上面的 LimitRange 示例, 最小 pod 和容器大小可能由正在運行的應用程式的需求確定,管理員不必強制執行, 為了簡單起見,我們還鼓勵開發人員在每個 pod 上運行一個容器(一個典型的例外是使用 sidecar 容器,如 Istio 的 sidecar), 因此,上面的示例對 pod 和 container 使用相同的資源值,

默認 requests 和 limits 作為開發人員的建議值, 未顯式宣告容器大小的作業負載資源(即 pod)將繼承默認值, 作為一種好的做法,開發人員應明確定義作業負載資源中的資源請求和限制,而不采用默認值,

CPU 和記憶體的 maxLimitRequestRatio 是開發人員的突發準則, 在開發環境中,當原型應用程式經常空閑運行,但在使用時需要合理的按需資源時,高 CPU maxLimitRequestRatio 會很好地作業, 開發人員可能只在作業時間作業,在自己的 IDE 中離線編碼,偶爾測驗單個微服務,或者測驗 CI/CD 管道的不同階段, 相比之下,如果許多最終用戶在一天中同時訪問應用程式,您將看到更高的基準利用率, 這可能更接近您的生產環境,并可能降低 maxLimitRequestRatio(可能是事件 1:1 的請求限制), 由于管道各階段的不同利用率模式將導致不同的請求和限制,因此在生產之前使用模擬作業負載進行測驗以確定適當的單元大小非常重要,

開發人員將使用 maxLimitRequestRatio 作為適當調整大小的準則, Kubernetes 調度程式基于資源請求做出調度決策,因此開發人員應配置資源 requests 以反映實際使用情況, 然后,基于應用程式的風險狀況,開發人員將配置 limits 以遵守 maxLimitRequestRatio, 將 maxLimitRequestRatio 設定為 1 的管理員強制開發人員將 requests 配置為等于限制,這在生產中可能是理想的,以降低風險并優先考慮穩定性,

在本文前面,我們比較了記憶體和 CPU,并描述了這兩種資源在負載下的不同行為,高記憶體可能導致 pod 逐出或從記憶體不足的情況重新啟動, 因此,最好是謹慎行事,并為不同環境的記憶體配置較低的 maxLimitRequestRatio,以防止應用程式 pod 重新啟動, 為 OpenJDK pod 配置記憶體時還應注意其他事項, (如果沒配置相應動態調整的引數), 容器和 pod 內部的 JVM heap 對容器的請求和限制一無所知,但應用于前者的資源約束將影響后者,

配置 ResourceQuota

管理員還可以配置 ResourceQuotas,它為 NameSpace 提供基于容量的限制,以指導開發人員根據預測的估計值來調整應用程式的規模, 下面是一個 ResourceQuota 示例,

apiVersion: v1
kind: ResourceQuota
metadata:
  name: compute-resources
spec:
  hard:
    limits.memory: 20Gi
    requests.cpu: "4"
    requests.memory: 20Gi

在應用程式 NameSpace 的初始創建程序中,開發團隊應與管理員一起預測其應用程式大小并應用適當的配額, 管理員應根據服務、副本的數量和 pod 的估計大小來預測應用程式大小, 為了簡化對眾多 NameSpace 的管理,管理員可考慮類似 AWS 的方法作為起始準則,其中 small、medium、large、xlarge 應用程式被給予對應的預定配額,

應用程式跨 CI/CD 管道的各個階段進行運行,每個階段都位于不同的集群或 NameSpace 中,并具有自己的配置配額, 在不考慮性能和高可用性的開發和測驗 NameSpace 中,應用程式應配置最小的 pod,并為每個服務配置 1 個 pod 副本,以減少資源使用, 另一方面,在生產集群或 NameSpace 中,應使用更大的 pod 和每個服務至少 2 個單元副本,以處理更高的業務量并提供高可用性, 通過使用 CI/CD 管道中的模擬作業負載進行壓力和性能測驗,開發人員可以在生產發布之前確定適當的生產 pod 大小、副本數量和配額,

管理員應針對未來的擴展制定配額預算,并考慮應用程式的使用模式、峰值容量和已配置的 pod 或節點的 autoscaler(如果有), 例如,可在快速添加新微服務的開發 NameSpace、用于確定適當生產 pod 大小的性能測驗 NameSpace、或使用 HPA 來調整峰值容量的生產 NameSpace 中分配附加配額, 管理員應針對上述各種情況和其他情況提供足夠的配額開銷,同時平衡基礎架構容量的風險并保護架構容量,

管理員和開發人員都應該預期會隨著時間的推移調整配額, 開發人員無需管理員的幫助即可識訓配額,方法是查看每項服務并減少 Pod requests 或 limits 以匹配實際使用量, 如果開發人員已經采取了這些步驟,但仍然需要額外的配額,那么他們應該聯系管理員, 管理員應將開發人員的定期配額請求作為一個機會,根據以前預測的估計值分析實際消耗量,并相應地確認或調整配額大小和新的預測估計值,

另外再介紹在調整配額大小時的一些次要注意事項, 在確定 CPU 和記憶體的配額比率時,應考慮節點容量,以便有效地利用兩者, 例如,m5.2xlarge 型別的 AWS EC2 實體為 8 個 vCPU、32 GiB RAM, 由 m5.2xlarge 節點組成的集群可以按照每 4 GB RAM 對應 1 個 vCPU 的比例分配應用配額(不考慮節點的系統保留空間),從而高效地使用 CPU 和記憶體, 如果應用程式作業負載(即 CPU 或記憶體密集型)與節點大小不匹配,則可以考慮使用不同的節點大小,

管理員對何時應用和不應用配額的 CPU limits 一直存在爭議,這里我們將提供一些考慮事項,而不是正式的指導, 正如我們前面所討論的,pod 的 CPU 不足會導致節流,但不一定會導致 pod 終止, 如果管理員傾向于過量使用并利用節點上的所有可用 CPU,則不應設定配額的 CPU limits相反,應設定配額 (resource quota) 的 CPU limits,以減少過度使用和應用程式性能風險,這可能是一個業務和成本決策,而不是技術決策, 與生產環境相比,開發環境可以容忍更高的風險和不可預測的性能,因此管理員可以考慮將 CPU limits 應用于生產而不是開發

最后,在某些特殊情況下,不建議應用配額, 應用配額的目的是讓管理員能夠對自定義開發的應用程式的容量規劃進行一定程度的控制, 配額不應應用于 Kubernetes 自身的組件,因為這些專案需要預先配置的資源量, 出于類似的原因,配額也不應適用于第三方供應商提供的企業版應用程式,

總結

在本文中,我們介紹了 Kubernetes 平臺如何通過資源約束保護架構,包括:

  • Pod 的 requests 和 limits
  • Node 的資源分配
  • NameSpace 級別的針對 Pod 和容器的 LimitRange
  • NameSpace 級別的 ResourceQuota

并提供了在應用程式 NameSpace 中應用 limits 和 quota 的保護措施時的合理調整注意事項, 每個應用的風險偏好和 Kubernetes 集群的容量各不相同,需要綜合考量再實施,

參考檔案

  • Kubernetes instance calculator (learnk8s.io)
  • 限制范圍 | Kubernetes
  • 資源配額 | Kubernetes

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/531928.html

標籤:其他

上一篇:寶塔面板發布vue頁面

下一篇:燒瓶:AttributeError:'NoneType'物件沒有屬性'split'

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more