全新升級的 AI 智算平臺 2.0 正式發(fā)布!
AI 智算平臺致力于讓 AI 算力管理像本地資源管理一樣簡單。2.0 新版全面擁抱云原生,實現(xiàn)從 AI 基礎(chǔ)設施到 AI 開發(fā)訓練推理的全流程高效管理。
功能升級,重塑算力管理體驗
01.異構(gòu)算力管理與調(diào)度,靈活高效
平臺通過統(tǒng)一的集群管理,實現(xiàn)對 NVIDIA、國產(chǎn) GPU 等多種異構(gòu)算力的高效調(diào)度。無論是高速 IB、RoCE 網(wǎng)絡建設,還是并行文件存儲集群管理,平臺均能提供從物理機到容器的全方位管理。新版平臺支持共享 GPU、單卡、多卡、多節(jié)點的算力調(diào)度,用戶可根據(jù)實際業(yè)務需求按需申請使用,極大地提高了算力資源的使用效率。
02.細致監(jiān)控,全面守護 AI 基礎(chǔ)設施
AI 智算平臺 2.0?新增節(jié)點監(jiān)控、任務監(jiān)控、容器組監(jiān)控、高速網(wǎng)絡監(jiān)控和 GPU 監(jiān)控等功能,提供從硬件故障處理到資源使用情況的全方位監(jiān)控,及時發(fā)現(xiàn)并解決潛在問題。同時,可視化的自定義告警配置支持郵件、企微、webhook 等多種通知渠道,確保用戶隨時掌握 AI 基礎(chǔ)設施的運行狀態(tài)。
集群監(jiān)控
網(wǎng)絡監(jiān)控
自定義告警配置
03.豐富的 AI 業(yè)務支持,加速創(chuàng)新
在算力調(diào)度的基礎(chǔ)上,平臺支持自定義鏡像倉庫,同時內(nèi)置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用計算框架,支持一鍵創(chuàng)建開發(fā)機、分布式任務,自動掛載并行文件存儲等常用 AI 業(yè)務流程。用戶只需上傳代碼,即可快速啟動多機多節(jié)點的分布式訓練,系統(tǒng)將自動調(diào)度到可用 GPU 進行計算,任務完成后自動釋放資源。這種自動化的算力調(diào)度分發(fā)與回收機制,讓算法工程師能夠更專注于 AI 模型本身,加速科研成果的創(chuàng)新。
常用分布式計算環(huán)境與框架
快速啟動分布式任務
資源總覽
04.便捷模型服務,一鍵部署,輕松推理
模型服務功能的優(yōu)化,讓用戶可以一鍵部署在線推理服務,極大地提升了模型開發(fā)和部署的效率。無論是公開模型還是用戶上傳的自有模型,均可在線推理,滿足各類業(yè)務需求。
模型服務-模型廣場
05.自動化運營,計量計費服務
借助青云公有云智算專區(qū)運營經(jīng)驗,平臺提供規(guī)格定價、在線充值、購買產(chǎn)品的全流程自服務管理,減少運營的技術(shù)人員、管理人員投入,同時減少客戶試用溝通和準備環(huán)境的時間,加快算力中心資源售賣,提升資源運營效率。
費用中心
01.簡化算力建設,跨越技術(shù)鴻溝
如同管理本地資源一樣,AI 智算平臺讓用戶即使面對復雜的 AI 基礎(chǔ)設施,也能輕松上手。無論是硬件配置、異構(gòu)計算資源、網(wǎng)絡架構(gòu)還是存儲資源,一切盡在掌握,大大降低了 AI 算力建設的技術(shù)門檻。
02.成本與效率雙輪驅(qū)動
通過精細化監(jiān)控與智能調(diào)度,平臺能夠根據(jù)實際負載自動調(diào)整算力資源,避免資源浪費,同時提供財務管理工具,不僅支持價格設定,還支持詳盡的用戶消費查詢與賬單統(tǒng)計,能有效控制成本,提升整體運營效率。
03.低門檻,模型全周期護航
從模型開發(fā)、訓練到部署推理,平臺提供了一站式解決方案。AI 智算平臺的大模型服務支持模型的快速訓練、版本管理、在線推理服務,以及靈活的資源組配置,讓模型管理變得簡單高效,加速 AI 應用的商業(yè)化進程。
04.運維效率與穩(wěn)定性提升
自動化運維體系減少人工干預,自動執(zhí)行和處理日常運維任務,如資源分配、故障處理等,確保系統(tǒng)的高可用性和穩(wěn)定性,讓團隊更加聚焦于業(yè)務創(chuàng)新與優(yōu)化。借助 AI 智算平臺 2.0,企業(yè)可以輕松應對 AI 算力建設與運營的挑戰(zhàn),實現(xiàn)高效、靈活的 AI 算力管理,降低成本,提高競爭力。
讓?AI?算力管理
更簡單、更高效、更智能!