GMI Cloud King Cui:AI Nativeloud助力企業(yè)出海解決算力需求

  

GMI Cloud King Cui:AI Nativeloud助力企業(yè)出海解決算力需求(圖1)

  12月5-6日,由智猩猩與智東西聯(lián)合主辦的2024中國(guó)生成式AI大會(huì)(上海站)在上海圓滿(mǎn)收官。在第二日的「AI Infra峰會(huì)」上,GMI Cloud亞太區(qū)總裁King Cui發(fā)表了主題為《全球化布局:AI企業(yè)如何補(bǔ)齊算力短板,保障GPU集群穩(wěn)定性》的演講。

  GMI Cloud成立于2023年,是一家AI Native Cloud服務(wù)商,旨在為企業(yè)AI應(yīng)用提供最新、最優(yōu)的GPU資源,為全球新創(chuàng)公司、研究機(jī)構(gòu)和大型企業(yè)提供穩(wěn)定安全、高效經(jīng)濟(jì)的AI云服務(wù)解決方案。其研發(fā)團(tuán)隊(duì)主要來(lái)自谷歌X Lab,具備豐富的AI領(lǐng)域?qū)I(yè)知識(shí)。King Cui是云計(jì)算領(lǐng)域資深專(zhuān)家,已有十幾年從業(yè)經(jīng)驗(yàn),今年正式加入GMI Cloud。

  本次演講中,King Cui分享道,“目前中國(guó)AI出海處于加速期,算力作為其中的核心生產(chǎn)資料正發(fā)揮重要作用。構(gòu)建高穩(wěn)定性的GPU集群是實(shí)現(xiàn)AI出海降本增效的必由之路,可以幫助企業(yè)在AI全球化浪潮中取勝?!?

  在確保GPU集群的高穩(wěn)定性方面,GMI Cloud除了擁有穩(wěn)定的尖端GPU芯片優(yōu)勢(shì)以外,其還自主研發(fā)了Cluster Engine,整合了對(duì)GPU卡、GPU節(jié)點(diǎn)、高速存儲(chǔ)以及高速網(wǎng)絡(luò)的控制,為客戶(hù)提供三種核心服務(wù)形態(tài):裸機(jī)、虛擬機(jī)、容器。這些服務(wù)在不同的層面上支持AI機(jī)器學(xué)習(xí)、基礎(chǔ)平臺(tái)設(shè)施以及HPC高性能運(yùn)算。此外,作為Nvidia全球Top10 NCP,GMI Cloud在交付前會(huì)進(jìn)行嚴(yán)格的驗(yàn)證流程。

  GMI Cloud還與IDC協(xié)作,擁有充足的備件,提供及時(shí)的維修,在更短的交付時(shí)間,確保停機(jī)時(shí)間最小化。另外值得一提的是,他們靈活的選型方案符合各類(lèi)AI出海企業(yè)需求,King Cui在大會(huì)現(xiàn)場(chǎng)進(jìn)行演講時(shí)引起眾人關(guān)注。

  今天給大家分享的主題是,在AI全球化的布局下,AI企業(yè)如何在海外補(bǔ)齊高端GPU的算力短板,并且保證整個(gè)GPU集群的穩(wěn)定性。

  2.我們與英偉達(dá)是戰(zhàn)略合作伙伴關(guān)系,同時(shí)獲得了全球頂級(jí)GPU ODM廠商的投資,在亞太區(qū)有GPU的優(yōu)先分配權(quán),能在最短時(shí)間拿到最新最強(qiáng)的GPU?,F(xiàn)在亞太很多云廠商還沒(méi)有提供H200的服務(wù),但我們已經(jīng)在今年八月份就向客戶(hù)提供H200云服務(wù),目前具備幾千卡的H200集群。

  3.我們致力于為所有AI企業(yè)打造一套獨(dú)立的AI云原生平臺(tái),不做貿(mào)易,只做AI Cloud。我們希望為所有企業(yè)提供具備高穩(wěn)定性的GPU集群云服務(wù)。

  我們致力于為所有企業(yè)提供一套穩(wěn)定、高效、安全、好用的GPU Cloud,鑄就全球領(lǐng)先的AI Cloud。目前我們?cè)诿绹?guó)、中國(guó)臺(tái)灣、泰國(guó)、馬來(lái)西亞等多個(gè)國(guó)家和地區(qū)提供云服務(wù),主要提供H100和H200,集群總規(guī)模接近萬(wàn)卡規(guī)模。今年十月份,GMI Cloud剛剛完成8200萬(wàn)美金的A輪融資,這筆資金將也將用于GMI Cloud在全球AI算力服務(wù)方面的布局。

  介紹完公司,我們來(lái)講第二部分,AI出海的趨勢(shì)和算力的挑戰(zhàn)。我們?yōu)槭裁匆鲆患页龊5脑品?wù)公司呢?在分析這點(diǎn)之前,我們要首先回顧過(guò)去中國(guó)30多年經(jīng)濟(jì)高速發(fā)展的2個(gè)核心底層因素。

  第一是人口紅利和城鎮(zhèn)化的高速發(fā)展,這個(gè)底層因素帶動(dòng)了產(chǎn)業(yè)高速發(fā)展,推動(dòng)了中國(guó)經(jīng)濟(jì)GDP高速增長(zhǎng)。

  第二個(gè)底層驅(qū)動(dòng)的核心因素是通信基礎(chǔ)設(shè)施的發(fā)展。從2G到3G到4G到5G,通信基礎(chǔ)設(shè)施的發(fā)展使得人機(jī)交互的信息傳輸媒介發(fā)生了從文字、圖片、視頻的演進(jìn)。移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展催生了很多新創(chuàng)公司,也使得國(guó)內(nèi)幾個(gè)頭部云計(jì)算廠商實(shí)現(xiàn)了幾百億人民幣市值的躍遷。

  但到今天,這兩個(gè)核心因素已經(jīng)進(jìn)入失速期。中國(guó)的城鎮(zhèn)化率已經(jīng)高達(dá)66%,中國(guó)移動(dòng)網(wǎng)民用戶(hù)數(shù)量接近11億,AI時(shí)代正式來(lái)臨,出海趨勢(shì)比較明晰了,所以我們一定要做出海。

  從技術(shù)的發(fā)展來(lái)看,我們這代人是非常幸運(yùn)的,我們經(jīng)歷了整個(gè)互聯(lián)網(wǎng)時(shí)代的發(fā)展和移動(dòng)互聯(lián)網(wǎng)時(shí)代的演進(jìn),目前正在進(jìn)入AI時(shí)代。從1990年到2010年的20年是互聯(lián)網(wǎng)時(shí)代,從2005年到2020年的15年是移動(dòng)互聯(lián)網(wǎng)時(shí)代,但這兩個(gè)時(shí)代都已經(jīng)進(jìn)入技術(shù)普惠點(diǎn),不再有高速增長(zhǎng)的機(jī)會(huì)。從2022年開(kāi)始,AI時(shí)代興起,就像1995年的互聯(lián)網(wǎng)時(shí)代一樣,未來(lái)會(huì)有巨大的機(jī)會(huì)。它的發(fā)展速度會(huì)比以前每個(gè)時(shí)代都更加猛烈,所以我們要抓住這波人工智能浪潮。

  當(dāng)前行業(yè)的發(fā)展趨勢(shì)是,做AI就一定要做出海。我相信所有企業(yè)在做AI的同時(shí),一定要立足于全球,一定要做全球化的生意。截止到今年8月份,全球AI產(chǎn)品總量大概有1717個(gè),其中中國(guó)相關(guān)的AI產(chǎn)品有280個(gè),出海相關(guān)的接近95個(gè),超過(guò)三分之一。

  我截取了AI產(chǎn)品榜前30名的APP,中國(guó)AI出海的APP前9個(gè)月的時(shí)間,整體MAU(月度活躍用戶(hù))已經(jīng)翻了一倍,并且還在高速增長(zhǎng)。bwin必贏但從MAU角度來(lái)看,相比第一名的ChatGPT,中國(guó)企業(yè)還有很大的增長(zhǎng)空間。

  AI出海趨勢(shì)的底層是中國(guó)的產(chǎn)品力競(jìng)爭(zhēng)。AI有三要素:算法、數(shù)據(jù)和算力,算力是非常核心的生產(chǎn)資料。那我們出海時(shí)如何解決算力問(wèn)題?

  中國(guó)的國(guó)產(chǎn)GPU很強(qiáng),但相比高端GPU來(lái)講還有一定差距。因?yàn)楦鞣N原因,我們國(guó)內(nèi)在高端優(yōu)先的頂尖GPU儲(chǔ)備量不夠。同時(shí),AI時(shí)代的發(fā)展時(shí)間不長(zhǎng),大家對(duì)于推理穩(wěn)定性的運(yùn)維經(jīng)驗(yàn)也不足。

  所以,我們?cè)诤M鈺r(shí)發(fā)現(xiàn),所有的IDC、服務(wù)器、能源等供應(yīng)商,他們的標(biāo)準(zhǔn)化和穩(wěn)定性的考量也不充分。所以,目前在海外做AI推理面臨的最大挑戰(zhàn)就是穩(wěn)定性問(wèn)題。

  這個(gè)圖(下圖)大家并不陌生,Meta了公布Llama 3-405B大模型用了16000張H100的卡,訓(xùn)練了54天,總共出現(xiàn)了466次故障中斷,其中419次是意外發(fā)生的,而GPU相關(guān)的高達(dá)200多次。Meta是全球頂尖的互聯(lián)網(wǎng)公司,他們有非常強(qiáng)大的推理能力,但大部分廠商在面對(duì)這么高故障率的GPU集群時(shí),是難以應(yīng)對(duì)的,所以選擇一個(gè)非常穩(wěn)定的GPU服務(wù)提供商是十分關(guān)鍵的。

  GPU集群的穩(wěn)定性與公司付出的經(jīng)濟(jì)成本(含研發(fā)成本)有直接聯(lián)系,在出海時(shí)有人想選擇最便宜的GPU裸金屬服務(wù)提供方,這也許在GPU單價(jià)上節(jié)省了10%-20%,但如果穩(wěn)定性不夠,整個(gè)公司研發(fā)的總成本可能會(huì)成倍增長(zhǎng)。

  從公司總體成本來(lái)講,選擇一個(gè)具備高穩(wěn)定性、安全高效的GPU云服務(wù)提供方,總成本其實(shí)更低。所以無(wú)論是降本還是增效,選擇高穩(wěn)定性的GPU集群是最重要的。

  GMI Cloud如何保證GPU集群的高穩(wěn)定性,面對(duì)故障時(shí)的應(yīng)對(duì)措施又是怎樣的?

  最底層的硬件架構(gòu)層,我們提供高性能的GPU服務(wù)器,包括大容量的存儲(chǔ)系統(tǒng)以及高帶寬的數(shù)據(jù)通道。

  IaaS層,我們完成了所有容器化的梳理,今年年底我們還會(huì)推出Serverless技術(shù)。同時(shí)我們對(duì)網(wǎng)絡(luò)和存儲(chǔ)都做了API的封裝,可以以API方式對(duì)外提供服務(wù)。IaaS層和GPU硬件架構(gòu)層所有相關(guān)軟件技術(shù)完全由GMI Cloud自主研發(fā)和管控。

  再往上是模型層。開(kāi)發(fā)者或小微企業(yè)可以直接使用開(kāi)源的大模型。這時(shí)我們可以提供更多便利性,支持一站式把開(kāi)源大模型直接部署到我們的集群,不需要做任何代碼開(kāi)發(fā)就可以直接上手使用。

  具備技術(shù)實(shí)力的公司可以在我們集群上部署自己的大模型做fine-tuning,我們可以提供專(zhuān)家服務(wù),幫助大家把模型訓(xùn)練得更好。

  對(duì)于整個(gè)GPU集群的管理,我們自主研發(fā)了一套平臺(tái),叫Cluster Engine,能夠?qū)崿F(xiàn)所有資源的調(diào)度和管理。

  在計(jì)算層面的資源調(diào)度,GMI Cloud提供裸金屬、虛擬機(jī)還有容器化等服務(wù)。在存儲(chǔ)層面,GMI Cloud提供基于NVME和RDMA的高性能分布式存儲(chǔ),也包括冷熱分離。我們完成了所有形態(tài)的研發(fā)。在網(wǎng)絡(luò)層面,我們支持IB虛擬化,能夠幫助企業(yè)客戶(hù)使用更加高速穩(wěn)定的IB網(wǎng)絡(luò)。

  這里舉個(gè)例子,這是一個(gè)萬(wàn)卡集群的IB網(wǎng)絡(luò)架構(gòu)(見(jiàn)下圖),總共用了1280臺(tái)H100服務(wù)器,總共有10264張卡,也是一個(gè)常見(jiàn)的400G×8的3.2T的三層IB高速網(wǎng)絡(luò)架構(gòu)。這里面有一萬(wàn)多張H100的GPU卡,如果從正常的SLA表現(xiàn)來(lái)看,可能每3-4個(gè)小時(shí)就會(huì)中斷一次。

  目前我們公司是為數(shù)不多真正具備萬(wàn)卡IB網(wǎng)絡(luò)集群運(yùn)維實(shí)踐的公司。在網(wǎng)絡(luò)虛擬化層面,我們也做了許多相關(guān)技術(shù),能夠最大化利用資源,具體有三個(gè)好處:第一,通過(guò)網(wǎng)絡(luò)虛擬化,我們?cè)谫Y源管理上能做到很好的隔離,使不同用戶(hù)之間不會(huì)發(fā)生資源爭(zhēng)搶?zhuān)岣哒麄€(gè)IB網(wǎng)絡(luò)的使用效率;第二,性能會(huì)有提升;第三,成本會(huì)優(yōu)化。

  通過(guò)虛擬化技術(shù),我們提高了現(xiàn)有集群的硬件使用效率,從而進(jìn)一步優(yōu)化整體成本?;贗B網(wǎng)絡(luò),我們實(shí)現(xiàn)了VPC參考架構(gòu),這個(gè)VPC與傳統(tǒng)云計(jì)算的VPC沒(méi)有太大差異,只是每個(gè)VPC里面用的是IB網(wǎng)絡(luò)。比如在國(guó)外某所大學(xué)的私有GPU集群里,我們提供了IB網(wǎng)絡(luò)的VPC,可以把不同學(xué)院、不同教授的實(shí)驗(yàn)分配到不同VPC中,各個(gè)之間不會(huì)發(fā)生資源隔離和爭(zhēng)搶?zhuān)@對(duì)客戶(hù)來(lái)說(shuō)是很好的體驗(yàn)。

  講完容器和網(wǎng)絡(luò),我們?cè)倏创鎯?chǔ)。我們基于不同場(chǎng)景做了存儲(chǔ)分級(jí)。如果是做備份需求,我們可以提供成本較優(yōu)的SATA存儲(chǔ)。如果是對(duì)時(shí)效性要求高、吞吐較高的場(chǎng)景,比如做模型訓(xùn)練的Checkpoint存儲(chǔ),或者自動(dòng)駕駛數(shù)據(jù)加載的高性能讀寫(xiě)存儲(chǔ),我們提供了基于NVME的GPFS存儲(chǔ)系統(tǒng)。根據(jù)不同場(chǎng)景需求,我們提供不同性?xún)r(jià)比的存儲(chǔ)產(chǎn)品。

  對(duì)于大規(guī)模集群來(lái)說(shuō),可觀測(cè)性非常重要。我們提供了主動(dòng)監(jiān)控功能,通過(guò)自研平臺(tái)能夠?qū)崟r(shí)監(jiān)控和告警,并且快速定位問(wèn)題,在最短時(shí)間恢復(fù)集群。這是我們集群目前提供的端到端檢測(cè)、實(shí)時(shí)儀表盤(pán)、故障告警通知及數(shù)據(jù)歷史記錄監(jiān)控(下圖),“端到端監(jiān)測(cè)”是目前很多客戶(hù)反饋非常方便的定位功能,我們可以發(fā)現(xiàn)是哪個(gè)節(jié)點(diǎn)、哪臺(tái)機(jī)器出了問(wèn)題,快速進(jìn)行修復(fù)和調(diào)整。

  然后再講一講GMI Cloud的驗(yàn)證體系。為了保證集群的高穩(wěn)定性,GMI Cloud有兩套體系:第一套是作為Nvidia Cloud Partner的Nvidia驗(yàn)證體系,第二套是在真正交付給客戶(hù)之前的、GMI Cloud自有穩(wěn)定性驗(yàn)證測(cè)試體系。

  Nvidia的NCP認(rèn)證體系非常嚴(yán)格。首先要做整個(gè)集群方案設(shè)計(jì),然后通過(guò)NCP評(píng)估,再做整個(gè)集群建設(shè)。建設(shè)完成后Nvidia會(huì)派人檢查和測(cè)試,最終才能獲得資質(zhì)許可。

  此外,在交付之前的驗(yàn)證,我們還會(huì)自己做硬件層面測(cè)試、系統(tǒng)配置測(cè)試,對(duì)網(wǎng)絡(luò)和存儲(chǔ)做壓力測(cè)試,確保這套集群既能實(shí)現(xiàn)單機(jī)測(cè)試,也能實(shí)現(xiàn)整個(gè)跨集群分布式訓(xùn)練需求。

  第三部分,我們看看故障的預(yù)防策略和應(yīng)對(duì)措施。沒(méi)有人能保證集群穩(wěn)定性達(dá)到100%,難免會(huì)出現(xiàn)一些問(wèn)題,比如GPU硬件的掉卡或故障。我們要在最短時(shí)間內(nèi)實(shí)現(xiàn)硬件替換。GMI Cloud與IDC伙伴和ODM廠商保持深度緊密的合作關(guān)系。我們有3-5%的備機(jī)率和備件率,能在硬件故障時(shí)通過(guò)IDC本地伙伴快速更換。

  通過(guò)問(wèn)題源頭追溯和SLA簽訂,我們能對(duì)外承諾使用Cluster Engine的GPU云服務(wù)可達(dá)到99%的SLA。這是目前全球GPU云服務(wù)廠商中為數(shù)不多能在合同中約定99%SLA的廠商。同時(shí)我們提供7×24小時(shí)服務(wù)響應(yīng)及技術(shù)咨詢(xún)服務(wù),確??焖俳鉀Q硬件故障,減少停機(jī)時(shí)間,為客戶(hù)保持高穩(wěn)定性系統(tǒng)。

  接下來(lái),我想講講對(duì)AI Infra選型的思考,并結(jié)合兩個(gè)實(shí)際案例進(jìn)行分享。

  在出海過(guò)程中,選型有幾個(gè)因素需要考慮。AI場(chǎng)景中,是長(zhǎng)期租用還是短期租用?還要根據(jù)業(yè)務(wù)需求選擇是做推理還是訓(xùn)練,同時(shí)也要根據(jù)經(jīng)濟(jì)情況,選擇目前普遍使用的H100,或性能更高的H200,亦或未來(lái)會(huì)推出的GB200。

  綜合考慮,我們提供兩種方案:第一種是Private Cloud,可以根據(jù)客戶(hù)需求和地點(diǎn)選擇,在全球合法的國(guó)家和地區(qū)幫助選擇IDC,定制GPU服務(wù)器,提供長(zhǎng)期穩(wěn)定服務(wù)。第二種是On-Demand的標(biāo)準(zhǔn)產(chǎn)品,可以按卡時(shí)計(jì)費(fèi)??蛻?hù)可能只需要使用一兩張卡,訓(xùn)練一兩天就釋放,不需要為短期GPU需求付出高昂的購(gòu)機(jī)成本。

  除了以上所講,我們還提供專(zhuān)業(yè)的AI顧問(wèn)和咨詢(xún)服務(wù)。我們的研發(fā)團(tuán)隊(duì)主要來(lái)自谷歌X Lab,在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域積累了豐富經(jīng)驗(yàn),可以為企業(yè)客戶(hù)提供專(zhuān)業(yè)化的AI咨詢(xún)和建議。

  第一個(gè)是某大型互聯(lián)網(wǎng)招聘平臺(tái),他們?cè)谌蚧^(guò)程中希望基于業(yè)務(wù)定制招聘垂直場(chǎng)景的大模型。我們?cè)诤M鈳退麄儤?gòu)建私有GPU集群,從IDC選址到GPU服務(wù)器定制,到云管理平臺(tái)組件,以及模型訓(xùn)練建議,提供端到端解決方案。讓企業(yè)客戶(hù)可以專(zhuān)注業(yè)務(wù)研發(fā),提高效率,加速模型訓(xùn)練。

  另一個(gè)是在線(xiàn)直播平臺(tái),主要做主播與觀眾連麥。在涉及不同語(yǔ)言時(shí),以前的技術(shù)需要先語(yǔ)音轉(zhuǎn)文字(ASR),再文字轉(zhuǎn)語(yǔ)音(TTS),目前的端到端大模型,可以實(shí)現(xiàn)不同語(yǔ)言之間的無(wú)縫對(duì)話(huà)。這家公司基于開(kāi)源大模型做fine-tuning,不需要長(zhǎng)期租用大集群,只需在fine-tuning時(shí)使用幾臺(tái)服務(wù)器再訓(xùn)練幾天或一周。他們采購(gòu)了GMI Cloud的On-Demand服務(wù)來(lái)完成模型fine-tuning和調(diào)優(yōu)。

  總結(jié)一下,今天我們從GPU云服務(wù)提供商角度分享了在AI全球化視角下如何提供高穩(wěn)定性GPU云集群。

  在集群穩(wěn)定性方面通過(guò)三個(gè)方式,具備主動(dòng)監(jiān)控的Cluster Engine云平臺(tái)、英偉達(dá)驗(yàn)證體系和交付測(cè)試體系、主動(dòng)運(yùn)維監(jiān)控策略,通過(guò)這三個(gè)維度保證GPU集群穩(wěn)定性。最后結(jié)合兩個(gè)實(shí)際案例分享了AI Infra選型的思考,希望可以給大家的業(yè)務(wù)發(fā)展帶來(lái)幫助。

  12月23日,網(wǎng)友發(fā)布一則湖北黃石大冶市聚龍高級(jí)中學(xué)(下稱(chēng)“聚龍高中”)《關(guān)于課堂管理的幾點(diǎn)規(guī)定》(下稱(chēng)“《規(guī)定》”)《規(guī)定》中,對(duì)老師的日常行為施行違者罰款制度,罰款金額從30元至300元不等。

  突然爆火!熱搜第一!有銀行5分鐘內(nèi)已約滿(mǎn),半小時(shí)內(nèi)賣(mài)空,網(wǎng)友:昨晚到底誰(shuí)搶到了?

  23日晚,“蛇年紀(jì)念幣預(yù)約”登上微博熱搜。中國(guó)人民銀行于2024年12月23日起預(yù)約發(fā)行2025年賀歲普通紀(jì)念幣、紀(jì)念鈔。

  據(jù)央視新聞消息,12月23至24日,全國(guó)財(cái)政工作會(huì)議在北京召開(kāi)。會(huì)議強(qiáng)調(diào),2025年要重點(diǎn)做好六方面工作。一是支持?jǐn)U大國(guó)內(nèi)需求。適當(dāng)提高退休人員基本養(yǎng)老金,提高城鄉(xiāng)居民基礎(chǔ)養(yǎng)老金,提高城鄉(xiāng)居民醫(yī)保財(cái)政補(bǔ)助標(biāo)準(zhǔn),大力提振消費(fèi)。

  岳麗娜在 19 歲那年,做出了一個(gè)讓所有人都為之震驚的決定 —— 與窮男友郭靖宇私奔。那時(shí)的她,正值青春年少,本可以選擇一條更為安穩(wěn)、順?biāo)斓牡缆罚欢?,?ài)情的魔力卻讓她義無(wú)反顧地踏上了充滿(mǎn)未知與艱辛的北漂之旅。

  近日,全紅嬋的哥哥全進(jìn)華接受了記者采訪(fǎng),談到了自己帶貨的話(huà)題。全進(jìn)華表示,自己就是一個(gè)賣(mài)農(nóng)產(chǎn)品,做三農(nóng)的博主。

  四只惡犬圍著咬一對(duì)母女,還是在公園里,看過(guò)監(jiān)控畫(huà)面的朋友都會(huì)覺(jué)得后怕,在四只大型犬面前,她們無(wú)助,不敢反抗,只能躲避……母女倆根本沒(méi)有任何挑撥犬的行為,所以狗主人應(yīng)當(dāng)承擔(dān)百分百的責(zé)任。