近日,青云科技 2024 AI 算力發(fā)布會(huì)成功舉辦,以 “無(wú)界算力,共創(chuàng)數(shù)智未來(lái)” 為主題,全面展示了青云在 AI 算力領(lǐng)域的產(chǎn)品創(chuàng)新、生態(tài)建設(shè)及場(chǎng)景落地成果。
青云科技解決方案總監(jiān)傅帥以 “十大場(chǎng)景,數(shù)智未來(lái)觸手可及” 為主題,深入闡釋了青云在金融、自動(dòng)駕駛、具身智能、高??蒲?、生物醫(yī)藥等多個(gè)行業(yè)積累的豐富經(jīng)驗(yàn),以及針對(duì)各行業(yè)核心痛點(diǎn)所形成的十大智算解決方案。
以下為青云科技解決方案總監(jiān)傅帥的分享,經(jīng)整理呈現(xiàn)。
算力與業(yè)務(wù)雙輪驅(qū)動(dòng)
從 2019 年起,青云便開始涉足智算領(lǐng)域。此前一直在默默耕耘,今天希望借此 AI 算力發(fā)布會(huì)的契機(jī),與各位領(lǐng)導(dǎo)、生態(tài)伙伴以及線上觀眾分享青云在 AI 領(lǐng)域的方案與案例。
AI 推理為最終目標(biāo),訓(xùn)練仍為當(dāng)前重點(diǎn)
首先,從大趨勢(shì)來(lái)看,AI 推理被廣泛認(rèn)為是人工智能發(fā)展的最終目標(biāo)或形態(tài)。就國(guó)內(nèi)目前 AI 的發(fā)展進(jìn)程而言,更多的重心仍在訓(xùn)練階段。因?yàn)橹挥袚碛辛己玫哪P停拍苤蝺?yōu)質(zhì)的應(yīng)用;而有了好的應(yīng)用,才能在實(shí)際應(yīng)用場(chǎng)景中落地。
此次青云發(fā)布的十大解決方案分為兩個(gè)層級(jí)。一個(gè)層級(jí)面向算力,涵蓋智算中心、大模型/多模態(tài)以及邊緣智能方向,探討算力如何實(shí)現(xiàn)。當(dāng)具備算力之后,再思考應(yīng)用和業(yè)務(wù)如何落地。在落地層面,既涉及傳統(tǒng)行業(yè)如金融,也包括新興場(chǎng)景如自動(dòng)駕駛、具身智能,后者對(duì) AI 的運(yùn)用更加深入和硬核。
十大場(chǎng)景,服務(wù)數(shù)智變革
智算中心:商用閉環(huán)是關(guān)鍵
自去年起,全國(guó)各地都在思考是否建設(shè)智算中心。實(shí)際上,建設(shè)智算中心是必然趨勢(shì)。AI 科學(xué)家屢獲諾貝爾獎(jiǎng),這說(shuō)明什么?這充分表明全球范圍內(nèi) AI 是大勢(shì)所趨,是不可逆轉(zhuǎn)的。
有建設(shè)智算中心想法的機(jī)構(gòu)或者個(gè)人找到青云后,首要關(guān)心的問(wèn)題是:智算中心能否盈利?有哪些盈利方式?從青云的角度來(lái)看,能否盈利的背后隱含著許多非 IT 行業(yè)或未涉足過(guò) AI 項(xiàng)目的參與者、投資者所不了解的因素。
簡(jiǎn)單來(lái)說(shuō),過(guò)去我們常提到要建設(shè)數(shù)據(jù)中心,但從國(guó)內(nèi)實(shí)際基礎(chǔ)資源的角度來(lái)看,能夠容納千卡集群的數(shù)據(jù)中心屈指可數(shù)。如果要求更高,比如現(xiàn)在是千卡規(guī)模,明年要達(dá)到萬(wàn)卡規(guī)模,能支撐萬(wàn)卡集群的數(shù)據(jù)中心更是鳳毛麟角。因此,如果關(guān)注智算中心能否實(shí)現(xiàn)商業(yè)閉環(huán),其基礎(chǔ)在于強(qiáng)大的計(jì)算能力。
以 IDC 和 AIDC 為例,兩者的差別主要在于電力。青云曾經(jīng)在不同場(chǎng)合強(qiáng)調(diào)過(guò),AI 是能源,沒(méi)有充足的電力,智算中心就無(wú)從談起。其次,AI 作為一個(gè)全新的計(jì)算領(lǐng)域,涉及算力、運(yùn)力、存力等全新技術(shù)。這些新技術(shù)帶來(lái)的挑戰(zhàn)在于,目前還沒(méi)有人能夠在實(shí)際生產(chǎn)過(guò)程中大范圍、長(zhǎng)期地運(yùn)用這些技術(shù)。技術(shù)方面的短板和未知,導(dǎo)致國(guó)內(nèi)去年到今年上半年建設(shè)的智算中心,可能有一半都無(wú)法達(dá)到設(shè)計(jì)上的性能指標(biāo)。原因在于不同技術(shù)、不同品牌的軟硬件之間的配合存在諸多問(wèn)題。
那么,智算中心如何變現(xiàn)或產(chǎn)生價(jià)值呢?這需要工具和團(tuán)隊(duì)的支持。以青云為例,青云自 2012 年開始做公有云,從事與云服務(wù)相關(guān)的工作,引進(jìn)一套系統(tǒng)和團(tuán)隊(duì),才能將算力、存力和運(yùn)力持續(xù)對(duì)外發(fā)揮作用,提供對(duì)外服務(wù),從而產(chǎn)生實(shí)際價(jià)值,實(shí)現(xiàn)商業(yè)閉環(huán)。
在去年下半年到今年上半年,青云落地了 20+ 智算中心,包括如何建設(shè) AIDC、軟件和硬件如何配套,以及建成后如何銷售、推廣和運(yùn)營(yíng)。青云提供這三方面的服務(wù),以應(yīng)對(duì)智算中心這一熱門領(lǐng)域的需求。
大模型:追求穩(wěn)定與安全
除了智算中心,第二個(gè)話題是大模型/多模態(tài)。在國(guó)外,OpenAI、Meta 等紛紛發(fā)布大模型,且 Meta 在發(fā)布一個(gè)版本后,不超過(guò)一周又推出第二個(gè)版本。隨后,Google 也發(fā)布了新版本。國(guó)內(nèi)同樣如此,上百家企業(yè)投身于大模型技術(shù)研發(fā)。這些大模型廠商對(duì)算力和數(shù)據(jù)的要求極高,且大模型領(lǐng)域競(jìng)爭(zhēng)激烈,他們雖然多為創(chuàng)業(yè)公司,但體量龐大。青云為他們提供工單服務(wù)的人員經(jīng)常在深夜收到支持工單。
大模型廠商、多模態(tài)廠商的核心資產(chǎn)是什么?一方面是各種參數(shù)量級(jí)的模型;另一方面是訓(xùn)練模型所需的訓(xùn)練數(shù)據(jù)集、推理時(shí)產(chǎn)生的生產(chǎn)數(shù)據(jù)。這些數(shù)據(jù)和模型是他們的核心資產(chǎn)。他們最為關(guān)心的問(wèn)題只有一個(gè),即如何保證數(shù)據(jù)和模型的安全。
此外,這類用戶通常處于高算力、高壓力的使用場(chǎng)景,需要一個(gè)持續(xù)、穩(wěn)定、可靠的平臺(tái),為模型訓(xùn)練提供保障。過(guò)去我們認(rèn)為一個(gè)模型只需訓(xùn)練一兩周就能投入使用,但實(shí)際上,與許多模型訓(xùn)練廠商交流后發(fā)現(xiàn),模型訓(xùn)練就如同煉丹,同樣參數(shù)在訓(xùn)練時(shí)效果可能不如訓(xùn)練前,但經(jīng)過(guò)不斷調(diào)整,下一版本訓(xùn)練時(shí)模型質(zhì)量會(huì)更好。這是一個(gè)需要時(shí)間和效率去提升模型質(zhì)量的過(guò)程。因此,平臺(tái)業(yè)務(wù)的連續(xù)性非常重要,尤其是針對(duì)大模型、多模態(tài)的廠商,他們訓(xùn)練任務(wù)多、時(shí)間非常長(zhǎng)、規(guī)模非常大,任何一個(gè)故障都會(huì)影響整個(gè)生命周期,會(huì)影響最終模型的效果。
因此,對(duì)于大模型、多模態(tài)以及垂類模型這類客戶,青云提供專屬的算力專區(qū)或私有化的算力平臺(tái)。專屬算力專區(qū)和私有化平臺(tái)從物理層面保障了數(shù)據(jù)的安全性和可靠性,同時(shí)通過(guò)軟件平臺(tái)提供持續(xù)、穩(wěn)定、可靠的平臺(tái)服務(wù),為這類客戶提供場(chǎng)景支持。
邊緣智算:中心與邊緣的協(xié)同
之前談到了智算的趨勢(shì),現(xiàn)階段 AI 以訓(xùn)練為主,未來(lái)則是推理。訓(xùn)練由中心端提供,具備千卡甚至萬(wàn)卡的算力能力。而產(chǎn)出的模型要真正應(yīng)用于業(yè)務(wù)場(chǎng)景和應(yīng)用場(chǎng)景,這些場(chǎng)景通常處于邊緣側(cè)。
以我們的金融行業(yè)客戶為例,如今都在追求降本增效、提升效率。比如銀行網(wǎng)點(diǎn)的智能化,通過(guò)邊緣設(shè)備實(shí)現(xiàn)開戶、辦理信用卡等業(yè)務(wù)流程,不再需要人工辦理??蛻粼阢y行網(wǎng)點(diǎn)通過(guò)帶有攝像頭的機(jī)器,與數(shù)字人進(jìn)行語(yǔ)音或視頻交互,完成整個(gè)業(yè)務(wù)流程。這是一個(gè)典型的在中心端進(jìn)行訓(xùn)練、在邊緣側(cè)實(shí)現(xiàn)推理的金融邊緣行業(yè)場(chǎng)景。
在交通行業(yè)也一樣,全省的高速公路、收費(fèi)站、攝像頭等都裝有傳感器。要實(shí)現(xiàn)整個(gè)流程的串聯(lián),需要對(duì)邊緣設(shè)備進(jìn)行統(tǒng)一管理。邊緣設(shè)備種類繁多,有攝像頭,有 ETC 之類的傳感器,各種各樣的架構(gòu)。有的只能進(jìn)行初步的簡(jiǎn)單推理,而有的新硬件設(shè)備則具備高級(jí)推理能力。因此,需要面向全國(guó)或一個(gè)大的省份、片區(qū),對(duì)多種邊緣設(shè)備進(jìn)行統(tǒng)一管理。
針對(duì)這些需求,青云可以提供 ”中心 + 邊緣“ 統(tǒng)一管理的能力,對(duì)算力資源和網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一納管。同時(shí),根據(jù)設(shè)備的不同算力能力,如攝像頭具備一定的推理能力,而某些終端設(shè)備可能不具備高級(jí)的推理能力,我們需要使平臺(tái)能夠適配終端和邊緣設(shè)備,以及平臺(tái)上的應(yīng)用。平臺(tái)需要將不同的算力資源匹配到不同的業(yè)務(wù)場(chǎng)景,以實(shí)現(xiàn)算力資源的調(diào)度和協(xié)調(diào)。這就是青云在邊緣場(chǎng)景的智算方案。
金融行業(yè):安全合規(guī)與靈活部署
前面談到了智算中心和邊緣計(jì)算,這些都是相對(duì)新興的領(lǐng)域?,F(xiàn)在來(lái)談?wù)剛鹘y(tǒng)領(lǐng)域,首先是金融行業(yè)。青云從 2014 年就開始與金融客戶合作,推動(dòng)數(shù)字化轉(zhuǎn)型。當(dāng)時(shí)還是 CPU 時(shí)代,青云就已經(jīng)深入了解了金融行業(yè)對(duì) IT 系統(tǒng)建設(shè)的要求、基礎(chǔ)能力需求和基礎(chǔ)框架設(shè)定。進(jìn)入 AI 和 GPU 時(shí)代后,青云的產(chǎn)品基因已深深植入金融方案中。
例如安全合規(guī)方面,以及國(guó)家一直強(qiáng)調(diào)的國(guó)產(chǎn)供應(yīng)鏈要求。在智算領(lǐng)域,如何保障智算中心實(shí)現(xiàn)硬件合規(guī),是廣大國(guó)產(chǎn)設(shè)備廠商需要努力的方向。青云則在算力平臺(tái)本身,延續(xù)了企業(yè)云、分布式存儲(chǔ)、容器云平臺(tái)上對(duì)存儲(chǔ)、算力和網(wǎng)絡(luò)的安全保障能力,為金融行業(yè)用戶提供符合安全要求的產(chǎn)品。
金融行業(yè)最常見的交付方式是私有化部署。這涉及到兩個(gè)方面的安全問(wèn)題:
一是產(chǎn)品能力是否可以根據(jù)用戶情況做定制化交付和部署;
二是能否根據(jù)用戶體量進(jìn)行靈活調(diào)度。青云在金融行業(yè)探索時(shí)間較長(zhǎng),既有像四大行、股份制銀行這樣的大體量客戶,也有各省的農(nóng)商行、農(nóng)信等中小規(guī)??蛻?。從規(guī)模上來(lái)講有幾百臺(tái)、千臺(tái)千卡的集群需求,同時(shí)也有 1-4 臺(tái)的小規(guī)模。不論集群規(guī)模大小,青云都可以用一套平臺(tái)實(shí)現(xiàn)多種規(guī)模的彈性部署,滿足不同客戶的需求。
具身智能:資源極致利用與安全保障
如今談到 AI,如果不提及自動(dòng)駕駛和具身智能,就有點(diǎn)脫離行業(yè)了。在新興領(lǐng)域,具身智能主要涉及機(jī)器人制造。在具身智能領(lǐng)域,我們觀察到的客戶訴求主要有兩個(gè)方面:
一是資源的極致利用,因?yàn)榫呱碇悄苡休^多場(chǎng)景定制,模型大小不一,對(duì)算力的需求也有多有少。同時(shí),與大模型和多模態(tài)廠商一樣,他們也非常注重?cái)?shù)據(jù)的絕對(duì)安全。由于對(duì)數(shù)據(jù)安全的要求,他們通常不太接受云服務(wù)方式提供算力,而是以中小規(guī)模的算力云進(jìn)行私有化部署。
二是由于新技術(shù)廠商競(jìng)爭(zhēng)激烈,資源往往不足,任務(wù)總是超出預(yù)期。如何調(diào)整需求和任務(wù)之間的關(guān)系,也非常關(guān)鍵。
青云通過(guò)一個(gè)平臺(tái)的管理和調(diào)度策略,來(lái)解決匹配用戶端的資源錯(cuò)配問(wèn)題。此外,在具身智能領(lǐng)域,青云還可以根據(jù)用戶的使用習(xí)慣,靈活調(diào)整平臺(tái)相關(guān)能力,快速將用戶在開發(fā)和產(chǎn)品迭代過(guò)程中的 GPU 和智算需求更新到平臺(tái)中。
生物醫(yī)藥:AI 融合與開發(fā)合作
在生物醫(yī)藥的專業(yè)領(lǐng)域,人員配置通常是生物醫(yī)藥或者醫(yī)療專業(yè)的應(yīng)用人才,其基礎(chǔ)技術(shù)人員主要在上層業(yè)務(wù)端,對(duì)硬件、網(wǎng)絡(luò)、存儲(chǔ)只是一知半解。那么,生物醫(yī)藥企業(yè)也希望擁抱 AI,引入 AI 技術(shù)應(yīng)用到行業(yè),如何來(lái)實(shí)現(xiàn)呢?青云所推薦的方案有兩個(gè)方面:
第一,采用 AI 智算一體機(jī),將硬件和軟件進(jìn)行整合集成,統(tǒng)一交付給用戶,讓用戶無(wú)需擔(dān)心底層硬件架構(gòu)和服務(wù)器配置,只需使用算力進(jìn)行藥物研發(fā)工作即可。
第二,在國(guó)產(chǎn)化方面,雖然國(guó)產(chǎn)化在金融和具身智能領(lǐng)域均有所滲透,但生物醫(yī)藥領(lǐng)域,更多平臺(tái)仍建立在非國(guó)產(chǎn)化平臺(tái)之上。借助 AI 進(jìn)程,希望將國(guó)產(chǎn)算力和平臺(tái)融入生物醫(yī)藥流程中。
更重要的是,生物醫(yī)藥領(lǐng)域涉及很多專業(yè)應(yīng)用軟件,青云作為 AI 基礎(chǔ)設(shè)施提供商,沒(méi)有專業(yè)領(lǐng)域的應(yīng)用軟件開發(fā)能力。因此,通過(guò)平臺(tái)的開放性和穩(wěn)定性,整合更多面向生物醫(yī)藥領(lǐng)域的應(yīng)用合作伙伴,為藥物研發(fā)的合作伙伴或客戶提供服務(wù)。
高??蒲校焊咝詢r(jià)比與資源管理
在高校和科研領(lǐng)域,AI 需求非常高。如果高校沒(méi)有人工智能、模型訓(xùn)練和推理等相關(guān)課程,學(xué)生畢業(yè)后將面臨很大挑戰(zhàn),因此高校一定會(huì)做和 AI 相關(guān)的事情。但高校也面臨一個(gè)問(wèn)題,即 GPU 算力資源價(jià)格高,而高校經(jīng)費(fèi)有限,無(wú)法花費(fèi)大量預(yù)算采購(gòu)海量算力服務(wù)。青云提供的解決方案有以下特點(diǎn):
第一,青云精心打造的 AI 智算一體機(jī),能夠?qū)⒂布阅馨l(fā)揮到極致,同時(shí)具備極高的性價(jià)比。
第二,可以將所有算力資源,包括算力和存力發(fā)揮到每個(gè)算力因子,實(shí)現(xiàn)算力和存力的劃分,滿足教育教學(xué)需求。
第三,針對(duì)教學(xué)場(chǎng)景,通過(guò)青云 AI 智算平臺(tái)的統(tǒng)一調(diào)度和管理能力,可以在一堂課結(jié)束后快速重建環(huán)境,服務(wù)下一堂教學(xué)或課題,實(shí)現(xiàn)資源的快速回收和發(fā)放。
第四,高校有很多歷史留存的 IT 基礎(chǔ)設(shè)施,包括 CPU 資源、傳統(tǒng)虛擬化資源和高性能計(jì)算資源。通過(guò)青云的混合云能力,可以將這些資源進(jìn)行整合和管理,實(shí)現(xiàn)統(tǒng)一平臺(tái)、統(tǒng)一管理,根據(jù)不同業(yè)務(wù)需求調(diào)度不同算力,以支撐上層應(yīng)用和業(yè)務(wù)。
自動(dòng)駕駛:數(shù)據(jù)支撐與車路協(xié)同
談到自動(dòng)駕駛,在場(chǎng)的各位如果是開車來(lái)的,很多人駕駛的可能就是新能源汽車。新能源汽車之所以受歡迎,原因之一是北京新能源不限號(hào)可以隨便開,二是其技術(shù)能力,如市區(qū)的自動(dòng)駕駛、自動(dòng)領(lǐng)航功能,借助汽車本身的攝像頭和軟件能力實(shí)現(xiàn)。
在自動(dòng)駕駛領(lǐng)域,數(shù)據(jù)非常重要,主要有兩個(gè)維度:一是通過(guò)高精地圖,二是通過(guò)純視覺收集海量數(shù)據(jù),包括地圖數(shù)據(jù)和傳感器數(shù)據(jù),為自動(dòng)駕駛算法的快速迭代提供支撐。因此,自動(dòng)駕駛非??粗厥欠裼泻A繑?shù)據(jù)的支撐能力。
其次,自動(dòng)駕駛是車路協(xié)同的過(guò)程,車和路之間的有效協(xié)同需要通過(guò)模型實(shí)現(xiàn),而模型從中心產(chǎn)生。這就需要車、路和中心三者的有機(jī)整合,其基礎(chǔ)是通過(guò)平臺(tái)對(duì)海量數(shù)據(jù)進(jìn)行全生命周期管理,在中心進(jìn)行訓(xùn)練,在邊緣側(cè)進(jìn)行推理,實(shí)現(xiàn)車與中心端的實(shí)時(shí)交互,以支持自動(dòng)駕駛的快速迭代。有自動(dòng)駕駛功能的新能源車,升級(jí)同步時(shí)會(huì)產(chǎn)生很多數(shù)據(jù),從而支撐中心端進(jìn)一步打磨模型。
互聯(lián)網(wǎng):彈性調(diào)度與多存儲(chǔ)服務(wù)
在互聯(lián)網(wǎng)領(lǐng)域,很多人都在嘗試使用 AI。國(guó)內(nèi)常用 kimi、智譜進(jìn)行英文翻譯或文檔總結(jié),國(guó)外可能更多使用 OpenAI 的 ChatGPT、Google 的 Gemini。互聯(lián)網(wǎng)領(lǐng)域的 AI 應(yīng)用面向 To C 端,最典型的特點(diǎn)是有潮汐分布情況,白天使用非常多,晚上資源相對(duì)空閑。因此,互聯(lián)網(wǎng)需要較高的資源彈性和調(diào)度能力。
另一方面,互聯(lián)網(wǎng)數(shù)據(jù)類型多樣化。除了視頻文件,還有大量圖片文件、文本文件,以及其他非結(jié)構(gòu)化文件,數(shù)據(jù)海量且存放方式多樣。青云為互聯(lián)網(wǎng)行業(yè)客戶提供服務(wù)時(shí),還可以提供多種存儲(chǔ)服務(wù),將各種形式的數(shù)據(jù)納入青云智算平臺(tái)。同時(shí),提供削峰填谷的調(diào)度方案,白天發(fā)揮最大推理優(yōu)勢(shì),晚上對(duì)任務(wù)進(jìn)行編排,將有限的算力資源分配到不同任務(wù)中。
政務(wù):運(yùn)營(yíng)調(diào)度與國(guó)產(chǎn)算力
最后是政務(wù)領(lǐng)域。國(guó)內(nèi)投資機(jī)構(gòu)和地方政府建設(shè)了大量智算中心,分布在省、市、區(qū)縣各級(jí),規(guī)模有大有小。如何將這些中心算力有效運(yùn)營(yíng)起來(lái),需要一定的工具。國(guó)家也看到了這方面的問(wèn)題,提出東數(shù)西算和算力互聯(lián)互通政策。
青云在設(shè)計(jì) AI 智算平臺(tái)時(shí),考慮到了國(guó)家的要求和未來(lái)發(fā)展。首先,針對(duì)國(guó)產(chǎn)算力,到場(chǎng)的芯片廠商所有智算卡都已在青云平臺(tái)管控范圍內(nèi)。同時(shí),平臺(tái)的對(duì)接能力能夠統(tǒng)一納管分布在全國(guó)各地各省、市、區(qū)縣的算力中心。最重要的是,青云有持續(xù)可靠的運(yùn)營(yíng)團(tuán)隊(duì)和平臺(tái),持續(xù)探索政務(wù)行業(yè)智算中心產(chǎn)生價(jià)值的路徑。
總結(jié)一下,前面談到了青云針對(duì)不同行業(yè)、中心以及細(xì)分領(lǐng)域的落地方案。AI 的三要素是算力、算法和數(shù)據(jù),在此基礎(chǔ)上,還應(yīng)加上規(guī)模這一要素。規(guī)??纱罂尚。梢允?strong>中心端也可以是邊緣端。在這個(gè)維度里,才涉及到 AI 基礎(chǔ)設(shè)施。
青云的基礎(chǔ)設(shè)施從中心到邊緣,從小規(guī)模到大規(guī)模,實(shí)現(xiàn)了 AI 全領(lǐng)域、全覆蓋的能力。青云所做的工作是覆蓋上層行業(yè)和場(chǎng)景,希望與到會(huì)的合作伙伴和線上合作伙伴一起,為中國(guó)百行千業(yè)的客戶提供 AI 支持和服務(wù)能力。