技術集錦 | 云原生 AI 技術原理及最佳實踐系列-有解無憂

關于我們

更多關于云原生的案例和知識，可關注同名【騰訊云原生】公眾號~

①公眾號后臺回復【手冊】，可獲得《騰訊云原生路線圖手冊》&《騰訊云原生最佳實踐》~

②公眾號后臺回復【系列】，可獲得《15個系列100+篇超實用云原生原創干貨合集》，包含Kubernetes 降本增效、K8s 性能優化實踐、最佳實踐等系列，

③公眾號后臺回復【白皮書】，可獲得《騰訊云容器安全白皮書》&《降本之源-云原生成本管理白皮書v1.0》

④公眾號后臺回復【光速入門】，可獲得騰訊云專家5萬字精華教程，光速入門Prometheus和Grafana，

云原生已成為了云計算行業下一代的標準，目前，除了傳統應用與基礎架構的云原生化，AI 與大資料也開始擁抱云原生的架構，

騰訊云容器服務基于在云原生領域的技術沉淀，推出模塊化，低耦合、高擴展性的云原生 AI 服務，旨在利用云原生的思想和技術，為 AI 場景的資料處理、模型訓練、模型上線推理等需求構建彈性可擴展的系統架構的技術，在支持更廣泛、多樣的用戶需求的同時，提高開發、運維和設備的效率，

【騰訊云原生】收集了關于云原生 AI 系列干貨文8篇，幫助你更好了解“云原生 AI”，一定要收藏哦！

云原生的彈性 AI 訓練系列之一：基于 AllReduce 的彈性分布式訓練實踐

本文主要介紹了資料并行的分布式訓練任務的彈性能力在 Kubernetes 上的設計與實作，并且通過實驗的方式驗證了特定的場景下，在保證訓練精度的同時，這一特性能夠使成本降低 70%，

云原生的彈性 AI 訓練系列之二：PyTorch 1.9.0 彈性分布式訓練的設計與實作

云原生的彈性 AI 訓練系列之三：借助彈性伸縮的 Jupyter Notebook，大幅提高 GPU 利用率

公有云上構建云原生 AI 平臺的探索與實踐

Fluid + GooseFS 助力云原生資料編排與加速快速落地

本文介紹了 Fluid 技術的背景以及與 GooseFS 的關系，通過在 TKE 集群上的實際操練讓大家體驗 Fluid v0.6.0 的兩大特性，讓大家進一步了解云原生應用場景下的資料編排能力，

云原生 AI 前沿：Kubeflow Training Operator 統一云上 AI 訓練

Aggregated APIServer 構建云原生應用最佳實踐

本文從實戰角度出發介紹我們開發 SKAI 平臺程序中選擇 Aggregated API 的原因，以及 kube-apisever 的擴展原理，演示如何構建起自己的 Aggregated API，并將它部署到 EKS 集群中，

GPU 分布式 AI 訓練加速引擎 TACO-Training 容器方案首發！

本文介紹了 TKE 提供的云原生 AI 能力和騰訊云自研網路協議堆疊 HARP，并指導用戶如何在 TKE 上部署實踐 TACO-Training 分布式訓練方案，

【騰訊云原生】云說新品、云研新術、云游新活、云賞資訊，掃碼關注同名公眾號，及時獲取更多干貨！！

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/449076.html

標籤：其他