在當(dāng)今 AI 技術(shù)快速發(fā)展的時代,青云科技一直走在前列,致力于為各行業(yè)提供強(qiáng)大的智算產(chǎn)品與服務(wù)。近日,在青云科技 AI 算力發(fā)布會上,青云智算產(chǎn)品經(jīng)理苗慧女士以“打破計算邊界,重塑 AI 時代”,詳細(xì)介紹了青云 AI 算力產(chǎn)品與服務(wù)的全新升級,展示了青云科技在 AI 領(lǐng)域的深厚積累與卓越創(chuàng)新。
以下為青云科技智算產(chǎn)品經(jīng)理苗慧的分享,經(jīng)整理。
三大核心產(chǎn)品,引領(lǐng)無界算力新時代
面對各行各業(yè)對 AI 的迫切需求,青云更是拿出了看家本領(lǐng)。其快速構(gòu)建 AI 計算場景的能力,讓算法工程師、計算科學(xué)家、數(shù)據(jù)科學(xué)家等研究人員能夠?qū)W⒂谒惴ê蛿?shù)學(xué)的研發(fā),而無需為底層 AI 基礎(chǔ)設(shè)施分心。通過屏蔽底層技術(shù)的復(fù)雜性,青云極大地提高了研發(fā)效率,讓科研成果能夠更快地轉(zhuǎn)化為實際應(yīng)用。
新產(chǎn)品,更全面
青云科技推出的三大核心產(chǎn)品:AI 智算平臺、AI 算力云服務(wù)和 AI 智算一體機(jī),以強(qiáng)大的技術(shù)實力突破傳統(tǒng)算力界限,實現(xiàn)無界算力。
● AI 智算平臺:大而全的軟件平臺,從底層設(shè)備管理到上層 AI 算法優(yōu)化,無所不能。它實現(xiàn)了對所有計算卡的高效管理,解決了客戶在多區(qū)域、多計算卡、多產(chǎn)品形式下的算力管理難題。通過統(tǒng)一算力調(diào)度管理集群,青云確保了算力的充分利用和高效調(diào)度。
● AI 算力云服務(wù):以 GPU 算力為主的在線服務(wù)平臺,用戶可以隨時隨地獲取所需的算力資源。無論是大型科研機(jī)構(gòu)還是中小型研發(fā)團(tuán)隊,都可以通過 AI 算力云服務(wù)快速構(gòu)建 AI 計算環(huán)境,推動科研成果的快速轉(zhuǎn)化和 AI 場景快速落地。目前,已經(jīng)上線了位于西北、華北等地的專區(qū),為用戶提供便捷、高效的算力服務(wù)。
● AI 智算一體機(jī):專為中小型研發(fā)團(tuán)隊和傳統(tǒng)企業(yè)設(shè)計的快速創(chuàng)新工具,開箱即用。一體機(jī)內(nèi)置了常用的模型和算法,用戶只需通電即可使用,無需擔(dān)心底層技術(shù)的復(fù)雜性。通過 AI 智算一體機(jī),用戶可以更快地開展 AI 研發(fā)和創(chuàng)新嘗試,加速科研成果的落地應(yīng)用。
多形式,提升資源利用效率
值得一提的是,青云在交付形式上也進(jìn)行了大量創(chuàng)新,不僅能完成私有化交付、提供算力云服務(wù)和算力專屬云,還能構(gòu)建分布式云,將多個地區(qū)的算力中心統(tǒng)一管理、運營和運維,極大提高了資源利用效率。同時,針對邊緣算力的需求,青云也提供邊緣計算能力。
專業(yè)技術(shù)團(tuán)隊,提供全方位服務(wù)
除了強(qiáng)大的產(chǎn)品能力和交付能力外,青云還擁有專業(yè)的技術(shù)專家團(tuán)隊,為客戶提供咨詢服務(wù)、規(guī)劃、可行性分析、架構(gòu)設(shè)計及 7×24 小時的技術(shù)支持。無論是在產(chǎn)品更新、計算產(chǎn)品升級、AI 數(shù)據(jù)平臺優(yōu)化、高性能網(wǎng)絡(luò)服務(wù)提升等方面,青云都能夠憑借豐富的經(jīng)驗和先進(jìn)的技術(shù),為客戶提供全方位的服務(wù)。
青云通過三大算力產(chǎn)品、靈活交付和專業(yè)服務(wù),實現(xiàn)了云、網(wǎng)、邊、端的無縫融合與高效協(xié)同。強(qiáng)大的組網(wǎng)與橫向擴(kuò)展能力,不僅覆蓋了企業(yè)數(shù)據(jù)中心、邊緣節(jié)點及跨區(qū)域場景,更打破了傳統(tǒng)算力的物理與邏輯界限。青云開放的架構(gòu),讓 AI 能力得以自由流動與深度融合。無論是向上對接多元化的 AI 技術(shù),還是向下兼容多樣化的硬件生態(tài),青云智算均能實現(xiàn)無縫集成,構(gòu)建了一個靈活、可擴(kuò)展的 AI 無界算力世界。
AI 智算平臺超進(jìn)化,效率革新
青云科技于去年 9 月份發(fā)布了 AI 智算平臺 1.0,以全新容器架構(gòu)提供了從底層算力基礎(chǔ)設(shè)施調(diào)度管理到業(yè)務(wù)運營的功能。在過去一年中,又陸續(xù)推出多個產(chǎn)品及功能,解決客戶實際問題,展現(xiàn)了強(qiáng)大的算力管理和調(diào)度能力。從大型的數(shù)據(jù)中心卡,到消費級 RTX 顯卡,再到國產(chǎn)的海光和昇騰系列計算卡,青云都能夠進(jìn)行高效的管理和調(diào)度。此外,面對不同網(wǎng)絡(luò)帶寬的需求,青云也能夠提供 200M、400M、800M 乃至上 T 的網(wǎng)絡(luò)帶寬性能,確保數(shù)據(jù)的暢通無阻。
青云深知,僅有強(qiáng)大的算力是不夠的。在 AI 基礎(chǔ)設(shè)施的建設(shè)過程中,計算卡的應(yīng)用、性能和調(diào)優(yōu)同樣至關(guān)重要。因此,青云通過統(tǒng)一算力調(diào)度管理集群,實現(xiàn)了對所有計算卡的高效管理,解決了客戶在多區(qū)域、多計算卡、多產(chǎn)品形式下的算力管理難題。
青云 AI 智算平臺通過不斷更新功能和優(yōu)化架構(gòu),滿足了用戶在計算、數(shù)據(jù)和網(wǎng)絡(luò)管理等方面的需求。這使得用戶能夠更加高效地利用計算資源,降低成本,提高生產(chǎn)效率,從而在 AI 領(lǐng)域取得更好的發(fā)展。無論是企業(yè)還是科研機(jī)構(gòu),都能從青云 AI 智算平臺的優(yōu)勢中受益,加快自身在 AI 領(lǐng)域的創(chuàng)新和進(jìn)步。
升級更多計算產(chǎn)品
AI 智算平臺提供多元化的計算形式,從傳統(tǒng)物理機(jī)到容器,再到裸金屬。計算不僅支持國外主流算力,還支持海光、昇騰等國產(chǎn)算力。同時,推出傳統(tǒng) HPC CPU 計算,面向 300 多個傳統(tǒng) HPC 場景提供 HPC 計算。
苗慧表示,計算產(chǎn)品升級主要體現(xiàn)在 GPU 切分能力的完善和提升上。金融和高校都存在高峰和低谷的業(yè)務(wù)特點,在高峰時需要大量資源支持,而在低谷時則只需保活即可。青云提供了算力芯片的切分使用,例如,通過將 GPU 切分二分之一,可以提高一倍的效率,同時減少一臺機(jī)器的投入??蛻艨梢酝ㄟ^這種 GPU 切分方式提高工作效率,降低投入成本,更好地滿足業(yè)務(wù)需求。
AI 數(shù)據(jù)平臺,便捷高效的數(shù)據(jù)服務(wù)
青云 AI 數(shù)據(jù)平臺作為統(tǒng)一的數(shù)據(jù)存儲流轉(zhuǎn)管理服務(wù)平臺,以其完全服務(wù)化的特性,為用戶提供了便捷、高效的持久化數(shù)據(jù)服務(wù)。平臺具有強(qiáng)大的屏蔽功能,能夠?qū)⒌讓咏橘|(zhì)(如硬機(jī)械硬盤、NVMe 閃盤)以及不同文件系統(tǒng)等基礎(chǔ)設(shè)施帶來的問題完全屏蔽。這使得用戶無需關(guān)注底層技術(shù)細(xì)節(jié),專注于數(shù)據(jù)的處理和應(yīng)用。
平臺完全服務(wù)化,可視化交互體驗,用戶可在界面上輕松點擊申請配額,隨后即可通過界面上傳、下載數(shù)據(jù)。數(shù)據(jù)與計算環(huán)境緊密關(guān)聯(lián),用戶在進(jìn)入平臺后,首先創(chuàng)建存儲,上傳數(shù)據(jù),完成這些操作后即可獲得相關(guān)計算資源,進(jìn)行數(shù)據(jù)處理和管理。這種簡潔明了的操作流程,極大提高了用戶使用數(shù)據(jù)的效率。
高性能網(wǎng)絡(luò)服務(wù),快速上架穩(wěn)定運行
青云科技憑借資深網(wǎng)絡(luò)團(tuán)隊和專業(yè)技術(shù)積累,在相同硬件條件下,為用戶提供更優(yōu)質(zhì)的高性能網(wǎng)絡(luò),保障網(wǎng)絡(luò)穩(wěn)定。
青云資深網(wǎng)絡(luò)團(tuán)隊,根據(jù)業(yè)務(wù)需求進(jìn)行全面的網(wǎng)絡(luò)規(guī)劃與設(shè)計。從硬件配置到網(wǎng)絡(luò)架構(gòu),每一個環(huán)節(jié)都經(jīng)過精心考量,確保網(wǎng)絡(luò)服務(wù)能夠滿足不同業(yè)務(wù)場景的需求。青云在網(wǎng)絡(luò)服務(wù)方面遵循嚴(yán)格的流程,千卡集群 7 天即可完成調(diào)試和 15 天上架運營,確保網(wǎng)絡(luò)服務(wù)在投入使用前經(jīng)過充分的測試和優(yōu)化,為用戶提供穩(wěn)定可靠的網(wǎng)絡(luò)環(huán)境。
全功能 AI 開發(fā)平臺,滿足開發(fā)訓(xùn)練需求
青云還推出全功能 AI 開發(fā)平臺,涵蓋開發(fā)機(jī)服務(wù)和分布式訓(xùn)練服務(wù)。
● 開發(fā)機(jī)服務(wù):提供秒級創(chuàng)建、鏡像加速、自定義鏡像等功能,還支持無卡開關(guān)機(jī)、在線開發(fā) jupyter、vscode,以及定時關(guān)機(jī)、定時釋放等資源回收策略。這些功能使得開發(fā)人員能夠更加方便快捷地進(jìn)行開發(fā)工作,提高開發(fā)效率。
● 分布式訓(xùn)練服務(wù):提供秒級調(diào)度多機(jī)多卡、預(yù)訓(xùn)練 DLC、模型精調(diào) SFT,以及優(yōu)先級與批量調(diào)度策略等功能。同時,還內(nèi)置了評估數(shù)據(jù)集、效率表現(xiàn)分析等,對模型效果進(jìn)行評估。這些功能使得分布式訓(xùn)練更加高效,提高了訓(xùn)練效率和模型質(zhì)量。
模型服務(wù)平臺,加速 AI 創(chuàng)新
青云 AI 智算平臺還推出即用即付、開箱即用的模型服務(wù)平臺,具備多項優(yōu)勢以滿足不同需求。
集成與調(diào)度
● 具有強(qiáng)大的集成能力,通過模型廣場,實現(xiàn)模型和應(yīng)用無縫集成,提升應(yīng)用性能。
● 采用靈活的潮汐調(diào)度策略,結(jié)合 GPU 池化,有效提升推理并發(fā)效率,同時支持國產(chǎn)卡和邊緣設(shè)備,擴(kuò)大適用范圍。
環(huán)境適配與管理
● 在算法環(huán)境方面,通過容器鏡像打包環(huán)境功能,無論用戶所需的 CUDA 版本如何,都能獲取相應(yīng)鏡像運行,解決了運維過程中因版本差異導(dǎo)致的問題。
● 對于不同算法團(tuán)隊的計算環(huán)境準(zhǔn)備需求,提供模型服務(wù)平臺,可快速搭建環(huán)境,避免物理問題?!?針對機(jī)器利用率低的問題,監(jiān)控平臺可全面監(jiān)控,不僅能看到機(jī)器歸屬及平均利用率,還能根據(jù)純時間類指標(biāo)和監(jiān)控數(shù)據(jù)實現(xiàn)自動關(guān)機(jī)、自動釋放計算卡,提高資源使用效率,避免算法團(tuán)隊搶卡。
資源調(diào)配與應(yīng)用
● 開發(fā)、訓(xùn)練和推理服務(wù)通常由不同人員負(fù)責(zé),針對模型調(diào)用量存在高峰和低谷的情況,將所有模型部署到推理集群上,根據(jù)調(diào)用和壓力進(jìn)行資源彈性伸縮,合理分配資源。
● 通過 GPU 切分形式,如將 80G 顯存切成 20G 4 份向外分發(fā),可實現(xiàn)白天推理晚上訓(xùn)練。通過自動資源池調(diào)配滿足不同時段需求,如金融領(lǐng)域的 “白天推理,晚上訓(xùn)練” 模式,保存模型 CheckPoint,提高資源利用率。
青云科技借助自身的平臺和工具,為企業(yè)提供了無門檻構(gòu)建 AI 模型的服務(wù)。在 AI 智算平臺上,所有功能都圍繞算力應(yīng)用,使其能落實到具體場景和算法工程師手中。
企業(yè)只需將數(shù)據(jù)上傳到平臺,即可啟動一鍵精調(diào)。在這個過程中,平臺能夠?qū)γ總€保存的模型或 CheckPoint 立即進(jìn)行模型效果評估。平臺內(nèi)置常用數(shù)據(jù)集和常用參數(shù),完全屏蔽了對技術(shù)人員的底層技術(shù)要求。技術(shù)人員只需在平臺上進(jìn)行簡單操作,就能得到模型與結(jié)果評估,判斷其是否適用。如果適用,便可進(jìn)行部署、推理,并預(yù)留接口。
在資源管理方面,對于推理占用資源,既可以獨占,也可以共享。青云按照 token 形式進(jìn)行彈性計費或彈性擴(kuò)/縮容,滿足企業(yè)不同的資源需求和成本控制要求。
故障監(jiān)控與自愈系統(tǒng),保障算力穩(wěn)定
苗慧在發(fā)布會上指出,青云在過去管理了萬卡集群、10000P+ 算力,不論是英偉達(dá)還是國產(chǎn) GPU 服務(wù)器,損壞率是不可避免的。設(shè)備在運行過程中,由于長時間工作和物理特性(如松動、晃動),可能會出現(xiàn)故障。為了確保算力的穩(wěn)定可靠運行,青云 AI 智算平臺還推出了故障監(jiān)控與自愈系統(tǒng)。該系統(tǒng)擁有 1000+ 故障特征庫,能夠秒級發(fā)現(xiàn)故障并分鐘級自愈。
一旦平臺檢測到故障,會立即通過多渠道(如企業(yè)微信)發(fā)出告警。隨后,系統(tǒng)會自動啟動任務(wù)檢測和調(diào)度禁止機(jī)制,防止新任務(wù)在故障機(jī)器上運行。對于正在運行的任務(wù),系統(tǒng)會檢查其健康狀態(tài),并根據(jù)情況決定是否繼續(xù)在當(dāng)前機(jī)器上運行或轉(zhuǎn)移到其他正常機(jī)器上。在資源充足的情況下,系統(tǒng)會預(yù)留部分機(jī)器作為備份,以便在故障發(fā)生時迅速接管任務(wù),保證任務(wù)連續(xù)性,從而提高工作效率。
用戶可以放心地使用算力資源開展研發(fā)和創(chuàng)新工作,而無需擔(dān)心故障帶來的損失和影響。目前,青云科技的故障自愈率已經(jīng)達(dá)到 99%,為用戶提供了更加可靠、高效的算力支持。
運營計量與計費系統(tǒng),靈活運營與管理
為了滿足不同用戶的需求和預(yù)算限制,青云 AI 智算平臺還推出了運營計量與計費系統(tǒng)。傳統(tǒng)的算力中心在資源購買和配置過程中,涉及到諸多繁瑣步驟,如配置資源、網(wǎng)絡(luò)、公網(wǎng)服務(wù)、確定計費模式、簽訂合同等。青云通過自動化手段將這些步驟大大簡化,降低了用戶的工作負(fù)擔(dān)。
該系統(tǒng)提供了全量運營計費計量功能,實現(xiàn)了租戶隔離和靈活定價。用戶可以根據(jù)自己的需求和預(yù)算選擇合適的算力資源和服務(wù),并按照實際使用情況進(jìn)行計費。
系統(tǒng)還充分考慮了用戶在使用過程中可能遇到的各種情況,如重建環(huán)境、臨時停用等。針對這些情況,系統(tǒng)提供了相應(yīng)的彈性計費策略,確保用戶不會因為這些臨時變化而承擔(dān)不必要的費用。
AI 算力云,低門檻普惠 AI 應(yīng)用
青云推出的公有云 AI 算力云服務(wù),目前在西北 1 區(qū)、西北 2 區(qū)、華北 2 區(qū)等區(qū)域運行,提供英偉達(dá) H 系列、A 系列、RTX 系列、海光和昇騰相關(guān)的算力資源,以及模型服務(wù)。用戶可以方便地進(jìn)行在線申請和使用,無論是簡單的計算任務(wù)還是復(fù)雜的在線分布式任務(wù),都能得到滿足。資源按需計費,簡單明了,用戶可以根據(jù)自己的任務(wù)需求和預(yù)算進(jìn)行合理安排。
除了算力服務(wù),該產(chǎn)品還提供各種存儲的申請和使用,為用戶提供便捷、高效的一站式服務(wù),進(jìn)一步滿足了用戶在數(shù)據(jù)存儲方面的需求。
AI 智算一體機(jī),開箱即用
AI 智算一體機(jī)主要面向傳統(tǒng)企業(yè)和中小型開發(fā)團(tuán)隊,旨在幫助他們快速進(jìn)行創(chuàng)新嘗試。對于那些沒有時間和精力去深入學(xué)習(xí) AI 基礎(chǔ)知識的用戶來說,這款一體機(jī)是一個理想的選擇。它無需用戶長時間學(xué)習(xí)相關(guān)知識,通電即用。一體機(jī)內(nèi)置了市場上常用的模型、算法和計算庫,并不斷更新,確保用戶能夠使用到最新、最實用的工具。用戶在使用過程中,隨時可以調(diào)整,甚至可以將其搬到某個區(qū)域繼續(xù)使用,體現(xiàn)了其高度的靈活性。
這種開箱即用的特性,使得企業(yè)能夠在短時間內(nèi)體驗到 AI 技術(shù)帶來的便利和優(yōu)勢。通過不斷創(chuàng)新和升級產(chǎn)品以及提升服務(wù)質(zhì)量和技術(shù)水平,青云科技將為用戶帶來更加便捷、高效、可靠的算力支持和服務(wù)。
未來,隨著 AI 技術(shù)的不斷發(fā)展和應(yīng)用領(lǐng)域的不斷拓展,青云科技將繼續(xù)保持其領(lǐng)先地位,推動 AI 技術(shù)的普及發(fā)展,為更多行業(yè)和領(lǐng)域注入新的活力和動力!