關于我們
更多關于云原生的案例和知識,可關注同名【騰訊云原生】公眾號~
福利:
①公眾號后臺回復【手冊】,可獲得《騰訊云原生路線圖手冊》&《騰訊云原生最佳實踐》~
②公眾號后臺回復【系列】,可獲得《15個系列100+篇超實用云原生原創干貨合集》,包含Kubernetes 降本增效、K8s 性能優化實踐、最佳實踐等系列,
③公眾號后臺回復【白皮書】,可獲得《騰訊云容器安全白皮書》&《降本之源-云原生成本管理白皮書v1.0》
④公眾號后臺回復【光速入門】,可獲得騰訊云專家5萬字精華教程,光速入門Prometheus和Grafana,
摘要
云原生已成為了云計算行業下一代的標準,目前,除了傳統應用與基礎架構的云原生化,AI 與大資料也開始擁抱云原生的架構,
騰訊云容器服務基于在云原生領域的技術沉淀,推出模塊化,低耦合、高擴展性的云原生 AI 服務,旨在利用云原生的思想和技術,為 AI 場景的資料處理、模型訓練、模型上線推理等需求構建彈性可擴展的系統架構的技術,在支持更廣泛、多樣的用戶需求的同時,提高開發、運維和設備的效率,
【騰訊云原生】收集了關于云原生 AI 系列干貨文8篇,幫助你更好了解“云原生 AI”,一定要收藏哦!
技術原理 & 實踐
云原生的彈性 AI 訓練系列之一:基于 AllReduce 的彈性分布式訓練實踐
- 本文主要介紹了資料并行的分布式訓練任務的彈性能力在 Kubernetes 上的設計與實作,并且通過實驗的方式驗證了特定的場景下,在保證訓練精度的同時,這一特性能夠使成本降低 70%,
云原生的彈性 AI 訓練系列之二:PyTorch 1.9.0 彈性分布式訓練的設計與實作
- 本文介紹了 PyTorch 1.9.0 版本中彈性訓練的設計與實作,然后分析總結了實作彈性訓練的方式和不同框架之間的設計差異,
云原生的彈性 AI 訓練系列之三:借助彈性伸縮的 Jupyter Notebook,大幅提高 GPU 利用率
- 這篇文章介紹了 elastic-jupyter-operator 這一開源專案的使用方式以及作業原理,
公有云上構建云原生 AI 平臺的探索與實踐
- 本文介紹了 AI 類業務在公有云上的現狀以及相應的技術選型和面臨的問題,同時分享了對于未來全彈性的 AI 基礎設施的展望,
Fluid + GooseFS 助力云原生資料編排與加速快速落地
- 本文介紹了 Fluid 技術的背景以及與 GooseFS 的關系,通過在 TKE 集群上的實際操練讓大家體驗 Fluid v0.6.0 的兩大特性,讓大家進一步了解云原生應用場景下的資料編排能力,
云原生 AI 前沿:Kubeflow Training Operator 統一云上 AI 訓練
- 本文介紹了 kubeflow 社區面對多個 訓練 operator 遇到的維護、性能上的問題,通過融合的方式構建統一的 training-operator,
Aggregated APIServer 構建云原生應用最佳實踐
- 本文從實戰角度出發介紹我們開發 SKAI 平臺程序中選擇 Aggregated API 的原因,以及 kube-apisever 的擴展原理,演示如何構建起自己的 Aggregated API,并將它部署到 EKS 集群中,
GPU 分布式 AI 訓練加速引擎 TACO-Training 容器方案首發!
本文介紹了 TKE 提供的云原生 AI 能力和騰訊云自研網路協議堆疊 HARP,并指導用戶如何在 TKE 上部署實踐 TACO-Training 分布式訓練方案,
【騰訊云原生】云說新品、云研新術、云游新活、云賞資訊,掃碼關注同名公眾號,及時獲取更多干貨!!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/449076.html
標籤:其他
上一篇:numpy中未定義變數

