英偉達(dá)還能一家獨(dú)大嗎?AI的五大挑戰(zhàn)!

  

英偉達(dá)還能一家獨(dú)大嗎?AI的五大挑戰(zhàn)!(圖1)

  2024 年是 HPC-AI 市場(chǎng)大放異彩的一年。SC24的出席人數(shù)創(chuàng)下了歷史新高,勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的El Capitan在Top500榜單上位居榜首, AI 市場(chǎng)蓬勃發(fā)展,超大規(guī)模公司在 2023 年的投資額是其原本高額投資的兩倍多。

  那么,為什么這一切感覺(jué)如此不穩(wěn)定?隨著 2025 年的到來(lái),HPC-AI 行業(yè)正處于一個(gè)轉(zhuǎn)折點(diǎn)。不斷膨脹的 AI 市場(chǎng)占據(jù)了人們的討論話題,一些人擔(dān)心它會(huì)耗盡 HPC 的活力,而另一些人(或許是同一群人)則在等待 AI 泡沫破裂。與此同時(shí),政治變革正在威脅現(xiàn)狀,可能會(huì)改變 HPC-AI 的市場(chǎng)動(dòng)態(tài)。

  Intersect360 Research正在制定今年的研究日程,并參考了HPC-AI 領(lǐng)導(dǎo)組織 (HALO)的意見(jiàn)。我們制定了有助于制定新五年預(yù)測(cè)的調(diào)查,以下是 HPC-AI 市場(chǎng)在未來(lái)五年面臨的五大問(wèn)題。

  在我們 SC24 之前的網(wǎng)絡(luò)研討會(huì)上,Intersect360 Research 對(duì)其 2024 年 HPC-AI 市場(chǎng)預(yù)測(cè)進(jìn)行了重大調(diào)整,bwin必贏官網(wǎng)入口宣布我們預(yù)計(jì)超大規(guī)模 AI 將連續(xù)第二年實(shí)現(xiàn)三位數(shù)增長(zhǎng),并且未來(lái)幾年將保持高增長(zhǎng)率。我們還提高了混合、本地(非超大規(guī)模)HPC-AI 市場(chǎng)的前景,但與超大規(guī)模的巨大增長(zhǎng)相比,這種相對(duì)溫和的增長(zhǎng)顯得微不足道。

  AI 已經(jīng)成為數(shù)據(jù)中心基礎(chǔ)設(shè)施討論的焦點(diǎn)。例如,在Hot Chips 2024上,少數(shù)幾個(gè)沒(méi)有明確關(guān)注 AI 的演講仍然提到了它。供應(yīng)商們正在競(jìng)相擁抱 AI 市場(chǎng)看似無(wú)限的增長(zhǎng)。

  超大規(guī)模人工智能市場(chǎng)主要以消費(fèi)者為主,而且已有先例。超大規(guī)模通過(guò)從以前不依賴企業(yè)計(jì)算的消費(fèi)者市場(chǎng)中創(chuàng)建云數(shù)據(jù)中心市場(chǎng),實(shí)現(xiàn)了最初的增長(zhǎng)。日歷、地圖、視頻游戲、音樂(lè)和視頻過(guò)去都存在于線下,社交媒體是一個(gè)前所未有的類別。人工智能正在建立在所有這些現(xiàn)象的基礎(chǔ)上,并且正在創(chuàng)造新的現(xiàn)象。

  沒(méi)有哪個(gè)市場(chǎng)是真正無(wú)邊無(wú)際的,但超大規(guī)模組件仍在摸索其上限。舉個(gè)例子,Meta在 2024 年 4 月的財(cái)報(bào)電話會(huì)議上宣布,它將每年的資本支出增加到 350 億至 400 億美元,以適應(yīng)其對(duì) AI 基礎(chǔ)設(shè)施的加速投資??鄢赡芘c AI 無(wú)關(guān)的資本支出,Meta 在其各個(gè)平臺(tái)上全球約 32 億用戶中,每位用戶仍有約 10 美元的支出。

  在這種情況下,一家超大規(guī)模公司可能期望通過(guò)使用人工智能每年從每位用戶身上額外賺取 10 美元的利潤(rùn),這是有道理的。要想達(dá)到更高的利潤(rùn),公司要么需要更多的用戶,要么需要更高的每位用戶的預(yù)期價(jià)值。很少有公司擁有超過(guò)世界人口三分之一的用戶。單個(gè)用戶的個(gè)人數(shù)據(jù)能因?yàn)槿斯ぶ悄芏鴥r(jià)值增加 20 美元嗎?

  除了經(jīng)濟(jì)因素之外,超大規(guī)模 AI 數(shù)據(jù)中心生產(chǎn)中被提及最多的限制因素是功耗。AI 數(shù)據(jù)中心的建設(shè)規(guī)模每次都達(dá)到數(shù)百兆瓦,甚至數(shù)千兆瓦。各家公司都在尋求創(chuàng)新解決方案,為這些建設(shè)提供電力。最臭名昭著的是,微軟與 Crane 清潔能源中心簽署了一份合同,將重啟賓夕法尼亞州三里島核電站 1 號(hào)機(jī)組,該核電站于 1979 年發(fā)生過(guò)核熔毀事故。(1 號(hào)機(jī)組獨(dú)立于發(fā)生事故的 2 號(hào)機(jī)組,此后 1 號(hào)機(jī)組繼續(xù)運(yùn)行。)

  因此,超大規(guī)模人工智能與可持續(xù)性概念息息相關(guān),而且全球范圍內(nèi)消耗如此多的電力是否負(fù)責(zé)任也是個(gè)問(wèn)題。但是,如果每年花費(fèi)數(shù)百億美元不是障礙,那么尋找電力也不是障礙,超大規(guī)模公司尚未找到他們能夠獲取和消耗的電力的極限。

  超大規(guī)模 AI 的迅猛發(fā)展最令人驚奇的事實(shí)或許在于,它并不是大多數(shù)數(shù)據(jù)中心討論的焦點(diǎn)。相反,我們追逐的是“企業(yè) AI”的概念,即 AI 有望徹底改變企業(yè)計(jì)算。

  這場(chǎng)革命無(wú)疑會(huì)發(fā)生。就像個(gè)人電腦、互聯(lián)網(wǎng)和萬(wàn)維網(wǎng)都徹底改變了企業(yè)一樣,人工智能也將如此。企業(yè)人工智能的市場(chǎng)機(jī)會(huì)取決于預(yù)期的業(yè)務(wù)結(jié)果。要使人工智能成為一項(xiàng)有利可圖的舉措,有兩條路可走:它可以降低成本,也可以帶來(lái)更多收入。

  到目前為止,大部分重點(diǎn)似乎都放在成本優(yōu)化上,例如通過(guò)精簡(jiǎn)運(yùn)營(yíng)或(讓我們面對(duì)現(xiàn)實(shí))裁員。這項(xiàng)投資受到一個(gè)簡(jiǎn)單的謎題的限制:你要花多少錢來(lái)節(jié)省一美元?即使將收益按年計(jì)算(每年美元),也給出了值得花費(fèi)的實(shí)際限制。此外,這條路的收益遞減。如果一家公司可以花費(fèi) 200 萬(wàn)美元來(lái)每年節(jié)省 100 萬(wàn)美元,那么它不太可能在接下來(lái)的 200 萬(wàn)美元中重復(fù)同樣的伎倆,以同樣的水平獲得同樣的收益。

  至于增加收入,有兩種類型:主要收入(總體上創(chuàng)造更多收入)和次要收入(從競(jìng)爭(zhēng)對(duì)手手中奪取份額)。我們以航空公司為例。通過(guò)實(shí)施人工智能,航空公司是否會(huì)吸引更多人乘坐航班?乘客是否會(huì)平均每趟航班花費(fèi)更多錢,特別是因?yàn)楹娇展镜娜斯ぶ悄??(附加?wèn)題:如果是這樣,這會(huì)如何影響其他市場(chǎng)的消費(fèi)者支出?還是人們只是有了更多的錢?)

  更有可能的是,我們正在考慮一個(gè)競(jìng)爭(zhēng)性市場(chǎng)份額論點(diǎn):由于航空公司 A 的人工智能投資,更多的客戶會(huì)選擇航空公司 A 而不是航空公司 B。在這種情況下,及時(shí)做出轉(zhuǎn)變可能很重要。亞馬遜最初是一家書(shū)店。如果 Borders 或 Barnes and Noble 早些投資網(wǎng)絡(luò)商務(wù),亞馬遜可能永遠(yuǎn)不會(huì)有這樣的機(jī)會(huì)。

  但這是一場(chǎng)零和博弈。如果航空公司 A 和航空公司 B 在人工智能方面的投資相同,而各自的收入保持不變,那么他們就花了必要的錢卻沒(méi)有收獲。(這是微觀經(jīng)濟(jì)博弈論中典型的“囚徒困境”。在這個(gè)簡(jiǎn)化的例子中,如果兩家航空公司都不投資,兩家航空公司都會(huì)受益,但無(wú)論對(duì)方做什么,每家航空公司進(jìn)行投資都會(huì)受益。)

  最終,那些為人工智能構(gòu)建硬件、模型和服務(wù)的人都寄希望于大規(guī)模的企業(yè)遷移。如果人工智能走上網(wǎng)絡(luò)的道路,那么十年后,即使盈利能力沒(méi)有因此飆升,穩(wěn)健的人工智能投資也將被視為經(jīng)營(yíng)成本。這樣一來(lái),人工智能將成為 IT 預(yù)算的主要部分,但在數(shù)量上可能與現(xiàn)有的 IT 預(yù)算沒(méi)有太大區(qū)別。

  在企業(yè)AI的追求中,一些硬件公司可能對(duì)AI系統(tǒng)最終是放在本地還是放在云端感到矛盾,但對(duì)于超大規(guī)模社區(qū)來(lái)說(shuō),一切(包括AI)即服務(wù)是未來(lái)的愿景。我們已經(jīng)看到了消費(fèi)市場(chǎng)的云化。隨著超大規(guī)模數(shù)據(jù)的高度集中,AI可能成為企業(yè)實(shí)現(xiàn)同樣目標(biāo)的杠桿。

  Intersect360 Research一直預(yù)測(cè),云計(jì)算在HPC-AI市場(chǎng)的滲透率將達(dá)到一個(gè)臨界點(diǎn),大約占 HPC 總預(yù)算的四分之一。主要限制因素不是任何云障礙,而是簡(jiǎn)單的成本;對(duì)于任何能夠達(dá)到足夠高利用率的人來(lái)說(shuō),租用比購(gòu)買更便宜。此外,數(shù)據(jù)引力和主權(quán)問(wèn)題正在推動(dòng)更多組織傾向于本地部署。舉個(gè)例子,GEICO的代表在9月的OCP全球峰會(huì)上介紹了其全系列應(yīng)用(包括HPC和AI)脫離云的舉措。

  但如果云成為唯一的選擇會(huì)怎樣?目前,超過(guò)四分之三的 HPC-AI 基礎(chǔ)設(shè)施(以及所有數(shù)據(jù)中心基礎(chǔ)設(shè)施)都被超大規(guī)模市場(chǎng)所占用。頂級(jí)超大規(guī)模公司每年花費(fèi)數(shù)百億美元;它們各自都是一個(gè)市場(chǎng)。在產(chǎn)品設(shè)計(jì)和可用性方面,組件和系統(tǒng)制造商自然會(huì)優(yōu)先考慮它們。

  那些尋求 HPC-AI 解決方案的人可能會(huì)發(fā)現(xiàn),最新技術(shù)根本無(wú)法獲得,因?yàn)槌笠?guī)模企業(yè)能夠消耗特定產(chǎn)品的全部供應(yīng)。Nvidia GPU(實(shí)現(xiàn) AI 的絕對(duì)神奇寶石)即使有,價(jià)格也很高,而且等待時(shí)間很長(zhǎng)。專注于 HPC 的存儲(chǔ)公司同樣參與了超大規(guī)模 AI 部署。

  AI 能夠進(jìn)一步向云計(jì)算傾斜。如果真是這樣,那么 HPC-AI 技術(shù)的內(nèi)部部署市場(chǎng)將陷入衰落。HPE、戴爾、Atos/Eviden、富士通、思科、EMC 和 NetApp 等傳統(tǒng) OEM 企業(yè)產(chǎn)品和解決方案公司將爭(zhēng)奪較小的市場(chǎng)。(聯(lián)想、Supermicro 和 Penguin Solutions 等其他公司已經(jīng)采用了混合 ODM-OEM 業(yè)務(wù)模式,以便有效地向高增長(zhǎng)的超大規(guī)模市場(chǎng)銷售產(chǎn)品。)

  在人工智能的推動(dòng)下,超大規(guī)模公司的發(fā)展已經(jīng)遠(yuǎn)遠(yuǎn)超出了 Intersect360 Research 預(yù)測(cè)的水平。從歷史上看,這種市場(chǎng)集中度水平并不穩(wěn)定。五年前,在預(yù)測(cè)超大規(guī)模市場(chǎng)時(shí),Intersect360 Research寫(xiě)道:“這種市場(chǎng)力量在世界經(jīng)濟(jì)史上并非史無(wú)前例,但在信息技術(shù)時(shí)代,這種水平從未見(jiàn)過(guò)?!?

  從那時(shí)起,超大規(guī)模數(shù)據(jù)中心的發(fā)展速度大大加快。全球數(shù)據(jù)中心市場(chǎng)集中于少數(shù)買家。如果這種趨勢(shì)持續(xù)下去,它將從根本上顛覆企業(yè)計(jì)算的購(gòu)買和使用方式,無(wú)論買家是否愿意,一切即服務(wù)的觀點(diǎn)都可能成為現(xiàn)實(shí)。

  多年來(lái),圍繞 HPC-AI 能力的國(guó)家主權(quán)問(wèn)題一直在加劇。全球HALO 咨詢委員會(huì)最近將“HPC 民族主義”列為阻礙行業(yè)進(jìn)步的關(guān)鍵問(wèn)題。美國(guó)、中國(guó)、歐盟、英國(guó)、中國(guó)、日本和印度都基于本地技術(shù)提出了獨(dú)立的 HPC-AI 主權(quán)倡議?!都~約時(shí)報(bào)》 報(bào)道,不丹國(guó)王吉格梅·凱薩爾·納姆耶爾·旺楚克最近前往加州的 Nvidia 總部,討論建設(shè) AI 數(shù)據(jù)中心。

  特朗普總統(tǒng)已經(jīng)在加速國(guó)家獨(dú)立的進(jìn)程。他的政治綱領(lǐng)是美國(guó)例外主義,他上任的第一天就表明了促進(jìn)美國(guó)偉大的意圖。值得注意的是,特朗普強(qiáng)調(diào)了星際之門(mén)項(xiàng)目的宣布,“一家新公司打算在未來(lái)四年內(nèi)投資 5000 億美元,在美國(guó)為 OpenAI 建設(shè)新的人工智能基礎(chǔ)設(shè)施?!碧乩势辗Q星際之門(mén)是“一家新的美國(guó)公司……它將幾乎立即為美國(guó)創(chuàng)造 10 多萬(wàn)個(gè)就業(yè)機(jī)會(huì)。”

  星際之門(mén)項(xiàng)目很難被稱為特朗普的成就,因?yàn)轱@然在特朗普上任之前它就已經(jīng)在籌備中了。此外,投資并非來(lái)自美國(guó)政府。兩家主要出資者軟銀(日本)和 MGX(阿聯(lián)酋)都是非美國(guó)公司;MGX 是阿聯(lián)酋政府最近才成立的。但特朗普可能會(huì)因創(chuàng)造一個(gè)將數(shù)據(jù)中心和相關(guān)工作留在美國(guó)的環(huán)境而獲得贊譽(yù)。

  特朗普抓住了這一聲明,并將其與他打算實(shí)施的政策聯(lián)系起來(lái)。“這將確保技術(shù)的未來(lái)。我們想做的是,我們希望技術(shù)留在這個(gè)國(guó)家。中國(guó)是競(jìng)爭(zhēng)對(duì)手,其他國(guó)家也是競(jìng)爭(zhēng)對(duì)手。我們希望技術(shù)留在這個(gè)國(guó)家,我們正在讓技術(shù)可用,”特朗普指出。

  至于星際之門(mén)的建設(shè)和發(fā)電,特朗普誓言要讓事情變得簡(jiǎn)單?!拔覍⑼ㄟ^(guò)緊急聲明提供大量幫助,因?yàn)槲覀冇芯o急情況。我們必須建造這些東西,”他說(shuō)?!八麄儽仨毶a(chǎn)大量電力,如果他們?cè)敢?,我們將讓他們能夠非常輕松地在自己的工廠完成生產(chǎn)?!?

  特朗普采取的其他行動(dòng),例如立即退出《巴黎氣候協(xié)定》,都表明他希望美國(guó)投資能夠迅速推進(jìn),無(wú)論外部因素如何,例如其他國(guó)家的情緒或?qū)Νh(huán)境的擔(dān)憂。他承諾將通過(guò)放松管制為企業(yè)掃清障礙,并促進(jìn)美國(guó)的能源生產(chǎn)。所有這些行動(dòng)都應(yīng)轉(zhuǎn)化為對(duì) HPC-AI 技術(shù)的支出凈增加,不僅是超大規(guī)模公司,而且是關(guān)鍵的 HPC 商業(yè)垂直市場(chǎng),例如石油和天然氣勘探、制造業(yè)和金融服務(wù)。

  公共部門(mén)支出更令人懷疑。新成立的政府效率部 (DOGE) 是一個(gè)非官方的咨詢機(jī)構(gòu),由埃隆·馬斯克 (Elon Musk) 領(lǐng)導(dǎo),專門(mén)負(fù)責(zé)削減政府支出。一些超級(jí)計(jì)算堡壘,如美國(guó)能源部下屬的科學(xué)技術(shù)政策辦公室 (OSTP),傳統(tǒng)上一直得到兩黨的大力支持。其他政府部門(mén),如 NASA、NSF 或 NIH,可能會(huì)受到密切關(guān)注,甚至更糟的是,被裁員。

  以美國(guó)商務(wù)部下屬的國(guó)家海洋和大氣管理局 (NOAA) 為例。谷歌上個(gè)月宣布,其 GenCast 集成 AI 模型可以“比頂級(jí)操作系統(tǒng)歐洲中期天氣預(yù)報(bào)中心 (ECMWF) ENS 提前 15 天提供更好的日常天氣和極端事件預(yù)報(bào)”。在未來(lái)四年內(nèi),DOGE 會(huì)建議縮?。ɑ蛉∠㎞OAA 規(guī)模,轉(zhuǎn)而采用私營(yíng)部門(mén)的 AI 合同嗎?

  美國(guó)發(fā)生的事情自然也會(huì)影響到國(guó)外。歐盟委員會(huì)早就開(kāi)始關(guān)注制定不依賴美國(guó)或中國(guó)技術(shù)的 HPC-AI 戰(zhàn)略。歐洲 HPC 聯(lián)合組織執(zhí)行董事 Anders Jensen在接受 Intersect360 Research 高級(jí)分析師Steve Conway采訪時(shí)表示:“主權(quán)仍然是我們采購(gòu)的關(guān)鍵指導(dǎo)原則,因?yàn)槲覀冃率召?gòu)的系統(tǒng)將越來(lái)越依賴歐洲技術(shù)?!彪S著美國(guó)關(guān)稅和出口限制威脅的加劇,這些努力只會(huì)不斷升級(jí)。

  中國(guó)一直在努力實(shí)現(xiàn) HPC-AI 技術(shù)獨(dú)立,中國(guó)組織已停止向半年一次的 Top500 榜單提交系統(tǒng)基準(zhǔn)測(cè)試。未來(lái)幾年,中美之間可能會(huì)出現(xiàn)類似于上個(gè)世紀(jì)美蘇太空競(jìng)賽的“人工智能競(jìng)賽”。澳大利亞、加拿大、日本、沙特阿拉伯、韓國(guó)或英國(guó)等規(guī)模較小但 HPC-AI 實(shí)力仍然顯著的國(guó)家將面臨挑戰(zhàn),需要制定戰(zhàn)略來(lái)跟上步伐。

  回到美國(guó),值得思考的是,在這種背景下,“美國(guó)領(lǐng)導(dǎo)力”意味著什么。雖然歐盟專注于公共部門(mén)融資,而中國(guó)擁有獨(dú)特的國(guó)家控制資本主義模式,但美國(guó)公司既不屬于美國(guó)政府,也不受美國(guó)政府控制。世界上最大的超大規(guī)模組織總部設(shè)在美國(guó),但它們是依賴外國(guó)客戶的全球性公司。同樣,Nvidia、英特爾和 AMD 等關(guān)鍵技術(shù)提供商也是美國(guó)公司,它們也在國(guó)外銷售產(chǎn)品。限制這些產(chǎn)品的分銷會(huì)損害相關(guān)公司的利益。

  Nvidia政府事務(wù)副總裁Ned Finkle在博客中猛烈抨擊拜登政府在總統(tǒng)任期最后幾天通過(guò)的“人工智能擴(kuò)散”規(guī)則,稱其“史無(wú)前例且具有誤導(dǎo)性”,并稱其為“監(jiān)管泥潭”,“有可能浪費(fèi)美國(guó)來(lái)之不易的技術(shù)優(yōu)勢(shì)”??紤]到這些觀點(diǎn),特朗普政府面臨著一個(gè)棘手的問(wèn)題——既要推動(dòng)使用世界領(lǐng)先的美國(guó)HPC-AI技術(shù),如Nvidia GPU,又要保持對(duì)其他國(guó)家(尤其是中國(guó))的領(lǐng)導(dǎo)地位,因?yàn)槊绹?guó)政府認(rèn)為中國(guó)是競(jìng)爭(zhēng)對(duì)手。

  Nvidia 高管層的意見(jiàn)很重要,因?yàn)樵?AI 領(lǐng)域,Nvidia 控制著關(guān)鍵技術(shù) GPU。GPU 曾經(jīng)只限于圖形處理,直到 Nvidia 進(jìn)行了長(zhǎng)達(dá)十年的出色努力,建立了 CUDA 編程模型,將 GPU 引入 HPC。當(dāng)人們發(fā)現(xiàn) GPU 非常適合為機(jī)器學(xué)習(xí)提供動(dòng)力的神經(jīng)網(wǎng)絡(luò)計(jì)算時(shí),Nvidia 才真正開(kāi)始投入競(jìng)爭(zhēng)。

  因此,Nvidia 最自然的兩個(gè)競(jìng)爭(zhēng)對(duì)手是美國(guó)領(lǐng)先的 CPU 供應(yīng)商英特爾和 AMD。英特爾的最大優(yōu)勢(shì)在于 CPU。英特爾的 Xeon CPU 仍然是企業(yè)服務(wù)器的首選,數(shù)十年來(lái)的傳統(tǒng)軟件都針對(duì)它進(jìn)行了優(yōu)化。在服務(wù)于傳統(tǒng)科學(xué)和工程 HPC 代碼以及新興 AI 工作負(fù)載的混合工作負(fù)載環(huán)境中,這些 CPU 的兼容性和性能非常重要。

  這種根深蒂固的優(yōu)勢(shì)為英特爾提供了一條抵御 GPU 入侵的捷徑。值得贊揚(yáng)的是,英特爾預(yù)見(jiàn)到了這一威脅并試圖阻止它。在 CUDA 的早期,英特爾宣布了自己的計(jì)算 GPU,代號(hào)為 Larrabee。該項(xiàng)目在構(gòu)思不到兩年后就被取消了,從未上市。

  從那時(shí)起,英特爾嘗試了一個(gè)又一個(gè)加速器項(xiàng)目,但都以失敗告終,其中包括集成眾核 (MIC) 架構(gòu),該架構(gòu)后來(lái)成為英特爾至強(qiáng)融核 (Intel Xeon Phi),無(wú)論是作為加速器還是作為集成 CPU,都以失敗告終。英特爾最新的 GPU 加速器代號(hào)為 Ponte Vecchio,經(jīng)歷了一系列延遲,在阿貢國(guó)家實(shí)驗(yàn)室的 Aurora 超級(jí)計(jì)算機(jī)中未能達(dá)到性能預(yù)期。

  英特爾現(xiàn)已放棄維琪奧橋 (Ponte Vecchio) 和之前計(jì)劃的代號(hào)為里亞托橋 (Rialto Bridge) 的后續(xù)項(xiàng)目,因此那些期待英特爾 GPU 的人只能等待一款名為Falcon Shores的產(chǎn)品及其繼任者Jaguar Shores ,盡管在首席執(zhí)行官帕特·基辛格 (Pat Gelsinger)突然退休之后,英特爾所有產(chǎn)品的未來(lái)都變得不明朗。英特爾目前確實(shí)提供了一款非 GPU 的 AI 加速器英特爾 Gaudi,但尚未對(duì) Nvidia 的主導(dǎo)地位產(chǎn)生重大影響。

  英特爾已放棄其核心 CPU 業(yè)務(wù)以外的其他嘗試。英特爾開(kāi)發(fā)了 Omni-Path 架構(gòu),以與 InfiniBand 競(jìng)爭(zhēng),成為 HPC 的高端系統(tǒng)互連。在取得小幅成功后,英特爾便放棄了;Cornelis Networks 從英特爾的垃圾堆中撿起了 Omni-Path,現(xiàn)在將其發(fā)揚(yáng)光大。英特爾、AMD、Cornelis Networks 和其他公司現(xiàn)在都加入了超級(jí)以太網(wǎng)聯(lián)盟,該聯(lián)盟旨在實(shí)現(xiàn)能夠與 Nvidia InfiniBand 競(jìng)爭(zhēng)的高性能以太網(wǎng)解決方案。

  相反,AMD 的 AMD EPYC CPU 和 AMD Instinct GPU 都取得了巨大的成功。在三家主要供應(yīng)商中,AMD 是第一個(gè)將 CPU 和 GPU 連接在一起的集成系統(tǒng)推向市場(chǎng)的公司。AMD 繼續(xù)在 HPC-AI 領(lǐng)域獲得份額,其最引人注目的兩次勝利是勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的El Capitan 超級(jí)計(jì)算機(jī)和橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的 Frontier 超級(jí)計(jì)算機(jī),這兩臺(tái)超級(jí)計(jì)算機(jī)均由 HPE 領(lǐng)導(dǎo)。

  當(dāng)然,買家的選擇不僅限于 Nvidia、英特爾和 AMD。Cerebras、Groq 和 SambaNova 等公司都憑借其用于 AI 系統(tǒng)的加速器取得了顯著的成功。但這些公司都不足以對(duì) Nvidia 的市場(chǎng)主導(dǎo)地位構(gòu)成競(jìng)爭(zhēng)威脅。如果其中一家公司或其同伙被一家超大規(guī)模公司收購(gòu),可能會(huì)成為一個(gè)因素。

  Nvidia 在 AI 領(lǐng)域遙遙領(lǐng)先,對(duì) Nvidia 的最大威脅(也可能是唯一真正的威脅)是徹底的范式轉(zhuǎn)變。超大規(guī)模公司一直是 Nvidia 最大的客戶。這些公司充分意識(shí)到他們對(duì) Nvidia GPU 的依賴,這些 GPU 在全球范圍內(nèi)需求旺盛,因此價(jià)格昂貴且經(jīng)常供不應(yīng)求。亞馬遜、谷歌和微軟都在內(nèi)部設(shè)計(jì)自己的 CPU 或 GPU,要么在自己的云服務(wù)中提供給其他人,要么供自己專用。

  與此同時(shí),Nvidia 還投資打造了以 GPU 為中心的新型云服務(wù)。CoreWeave、Denvr DataWorks、Lambda Labs 和 Nebius 只是提供 GPU 的云服務(wù)的少數(shù)幾個(gè)例子。其中一些是新來(lái)者;另一些則是轉(zhuǎn)型的比特幣礦工,現(xiàn)在他們?cè)?AI 中看到了更廣闊的前景。

  這使得 Nvidia 在兩個(gè)方面與其客戶展開(kāi)競(jìng)爭(zhēng)。首先,Nvidia 正在設(shè)計(jì)完整的 HPC-AI 系統(tǒng),與 HPE、戴爾、聯(lián)想、Supermicro 和 Atos/Eviden 等服務(wù)器 OEM 公司競(jìng)爭(zhēng),這些公司以自己的配置將 Nvidia GPU 推向市場(chǎng)。其次,Nvidia 正在資助或以其他方式支持 GPU 云,與自己的超大規(guī)模云客戶競(jìng)爭(zhēng),這些客戶自己也在設(shè)計(jì)處理單元,這可能會(huì)減少他們未來(lái)對(duì) Nvidia 的依賴。

  如果人工智能繼續(xù)發(fā)展,超大規(guī)模繼續(xù)占據(jù)主導(dǎo)地位,美國(guó)市場(chǎng)的限制被消除,那么我們可能會(huì)面臨一個(gè)新的競(jìng)爭(zhēng)模式。到本世紀(jì)末,問(wèn)題可能不是英特爾或 AMD 能否趕上 Nvidia,而是 Nvidia 如何與谷歌、微軟和亞馬遜競(jìng)爭(zhēng)。

  從這個(gè)角度看,競(jìng)爭(zhēng)空間是廣闊的。對(duì)于星際之門(mén)項(xiàng)目,OpenAI 與甲骨文和微軟結(jié)盟,將 Nvidia 作為主要技術(shù)合作伙伴,該項(xiàng)目聲稱將在未來(lái)四年投入 5000 億美元。去年,由上述 DOGE 沙皇埃隆·馬斯克領(lǐng)導(dǎo)的 X.ai 憑借Colossus AI 超級(jí)計(jì)算機(jī)的實(shí)施,進(jìn)入了超大規(guī)模 AI 支出的頂級(jí)行列。如果馬斯克通過(guò)收購(gòu)一家擁有專業(yè) AI 推理處理器的公司來(lái)擴(kuò)充他的技術(shù)儲(chǔ)備,那么事情可能會(huì)變得更加有趣。

  隨著競(jìng)爭(zhēng)態(tài)勢(shì)不斷變化,老派 HPC 人士自然而然地開(kāi)始尋找各種方式將 AI 與 HPC 整合在一起,包括 AI 增強(qiáng)型 HPC 等概念。除了代碼遷移等簡(jiǎn)單任務(wù)外,AI 還可以用于 HPC 預(yù)處理(例如目標(biāo)縮減)、后處理(例如圖像識(shí)別)、優(yōu)化(例如動(dòng)態(tài)網(wǎng)格細(xì)化)甚至集成(例如計(jì)算轉(zhuǎn)向)。隨著 AI 的蓬勃發(fā)展,我們對(duì)融合的 HPC-AI 市場(chǎng)持樂(lè)觀態(tài)度。

  這是一個(gè)夢(mèng)想,HPC 需要從中醒來(lái)。雖然人工智能確實(shí)為 HPC 帶來(lái)了這些好處,甚至更多,但它也帶來(lái)了危機(jī)。

  在 SC24 上,我們理所當(dāng)然地慶祝了 El Capitan,這是我們的第三臺(tái)百億億次超級(jí)計(jì)算機(jī),也是世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)。然而,我們都知道我們?cè)谧云燮廴?。Glenn Lockwood 曾是 NERSC 的高性能存儲(chǔ)專家,現(xiàn)在是 Microsoft Azure 的 AI 架構(gòu)師,他在SC 后的博客中證實(shí),微軟正在“以每月 5 倍 Eagles(70,000 個(gè) GPU?。┑乃俣葮?gòu)建 AI 基礎(chǔ)設(shè)施”,指的是 Microsoft Eagle 超級(jí)計(jì)算機(jī),目前在 Top500 榜單上排名第四,僅次于三個(gè) DOE 百億億次系統(tǒng)。如果愿意的話,微軟或其他超大規(guī)模公司顯然可以取得更高的分?jǐn)?shù)。

  我們習(xí)慣于認(rèn)為這些國(guó)家實(shí)驗(yàn)室的超級(jí)計(jì)算機(jī)是世界領(lǐng)先者,它們?yōu)楦鼜V泛的 HPC 和企業(yè)計(jì)算市場(chǎng)設(shè)定了發(fā)展方向。但事實(shí)已不再如此。一臺(tái)價(jià)值 5 億美元、功率為 30 兆瓦的超級(jí)計(jì)算機(jī)不再是世界領(lǐng)先的。它甚至不是一個(gè)特別大的訂單。能源部超級(jí)計(jì)算機(jī)可能對(duì)科學(xué)仍然至關(guān)重要,但展望未來(lái),企業(yè)數(shù)據(jù)中心行業(yè)的發(fā)展方向?qū)⒂扇斯ぶ悄芏皇莻鹘y(tǒng)的超級(jí)計(jì)算來(lái)設(shè)定。

  如果這聽(tīng)起來(lái)不重要,其實(shí)它很重要。盡管 HPC 人群已經(jīng)多次討論了 HPC 和 AI 的融合,但我們現(xiàn)在正朝著相反的方向前進(jìn),因?yàn)榉?wù)于 AI 的技術(shù)和配置與科學(xué)計(jì)算的需求相差甚遠(yuǎn)。

  這在精度討論中最為明顯。雖然 HPC 依賴于 64 位雙精度浮點(diǎn)計(jì)算,但我們已經(jīng)看到人工智能(尤其是用于推理的人工智能)已經(jīng)從 32 位單精度、混合精度和 16 位半精度逐漸下降,現(xiàn)在變成了“bfloats”和8 位、6 位甚至4 位精度的浮點(diǎn)或整數(shù)的各種組合?,F(xiàn)在,公司經(jīng)常宣傳他們的處理器或系統(tǒng)能夠執(zhí)行多少次“AI flops”,但并沒(méi)有定義“AI flop”代表什么。(這就像舉辦一場(chǎng)比賽看誰(shuí)能吃最多的餅干一樣愚蠢,沒(méi)有關(guān)于單個(gè)餅干有多小的界限或標(biāo)準(zhǔn)。)

  關(guān)于精度的某些討論可能對(duì) HPC 有益。在某些情況下,可能會(huì)對(duì)一開(kāi)始就不是很精確的模型進(jìn)行非常昂貴的高精度計(jì)算。但在 2024 年 Intersect360 Research 對(duì) HPC-AI 軟件的調(diào)查中,用戶明確指出 FP64 對(duì)他們未來(lái)的應(yīng)用最為重要。(見(jiàn)圖表。)

  如果處理器供應(yīng)商受人工智能驅(qū)動(dòng),我們可能會(huì)看到 FP64 慢慢(或很快)從產(chǎn)品路線圖中消失,或者至少比人工智能驅(qū)動(dòng)的低精度格式受到的關(guān)注更少?;瘜W(xué)、物理和天氣模擬等更依賴高精度計(jì)算的應(yīng)用領(lǐng)域?qū)⒚媾R最大的障礙。

  傳統(tǒng) HPC 和較新的 AI 應(yīng)用程序之間的 CPU 和 GPU 平衡也不同。盡管 Nvidia 在 CUDA 和軟件方面投入了大量精力,但大多數(shù) HPC 應(yīng)用程序在每個(gè)節(jié)點(diǎn)超過(guò)兩個(gè) GPU 的情況下都無(wú)法很好地運(yùn)行,許多應(yīng)用程序在僅有 CPU 的環(huán)境中仍然表現(xiàn)最佳。相反,AI 通常最好在高密度 GPU 下運(yùn)行,每個(gè)節(jié)點(diǎn)有八個(gè)或更多 GPU。此外,這些 AI 節(jié)點(diǎn)可能更適合使用具有相對(duì)低功耗和高內(nèi)存帶寬的 CPU——ARM 架構(gòu)的優(yōu)勢(shì)體現(xiàn)在 Nvidia Grace CPU 中。

  現(xiàn)在,混合 HPC-AI 市場(chǎng)充斥著每個(gè)節(jié)點(diǎn)配備四個(gè) GPU 的服務(wù)器節(jié)點(diǎn),這是目前安裝的最常見(jiàn)配置。在某些情況下,這可能效果很好,但在其他情況下,這可能是雙方同樣討厭的妥協(xié):GPU 太多,HPC 應(yīng)用程序無(wú)法有效使用;而對(duì)于 AI 工作負(fù)載來(lái)說(shuō)又不夠。對(duì)于其最新的超級(jí)計(jì)算機(jī)MareNostrum 5,巴塞羅那超級(jí)計(jì)算中心 (BSC) 選擇將其節(jié)點(diǎn)分為不同的分區(qū),有些每個(gè)節(jié)點(diǎn)配備較多 GPU,有些則較少??山M合性技術(shù)在未來(lái)也可能有所幫助,允許一個(gè)節(jié)點(diǎn)使用另一個(gè)節(jié)點(diǎn)的 GPU。GigaIO 和 Liqid 是兩家以 HPC 為導(dǎo)向的公司,追求系統(tǒng)級(jí)可組合性,但迄今為止采用率有限。

  高性能存儲(chǔ)也正在被劫持。我們與 HPC 數(shù)據(jù)管理相關(guān)的公司,例如 DDN、VAST Data、VDURA(前身為 Panasas)和 Weka,現(xiàn)在正以驚人的速度增長(zhǎng),這要?dú)w功于它們的解決方案適用于 AI。幸運(yùn)的是,對(duì)于 HPC 來(lái)說(shuō),目前它還沒(méi)有導(dǎo)致高性能存儲(chǔ)架構(gòu)方式發(fā)生重大變化。

  最終,如果推動(dòng)企業(yè)計(jì)算的解決方案發(fā)生變化,那么 HPC 可能也必須隨之改變。如果這聽(tīng)起來(lái)很極端,請(qǐng)放心。以前也發(fā)生過(guò)這種情況。

  數(shù)十年來(lái),HPC 一直是大型企業(yè)計(jì)算市場(chǎng)的寵兒。市場(chǎng)力量推動(dòng)了從矢量處理器到標(biāo)量處理器、從 Unix 到 Linux 以及從 RISC 到 x86 的遷移。最后這兩項(xiàng)遷移同時(shí)發(fā)生,這要?dú)w功于從對(duì)稱多處理 (SMP) 到集群的最大轉(zhuǎn)變。

  集群在 20 世紀(jì) 90 年代末通過(guò) Beowulf 項(xiàng)目開(kāi)始大規(guī)模出現(xiàn),該項(xiàng)目推廣了這樣一種理念:大型高性能系統(tǒng)可以通過(guò)行業(yè)標(biāo)準(zhǔn)的 x86-Linux 服務(wù)器構(gòu)建。這些商品系統(tǒng)之所以受到關(guān)注,是因?yàn)楫?dāng)時(shí)一種趨勢(shì)的炒作和前景與今天的人工智能一樣多:萬(wàn)維網(wǎng)的出現(xiàn)。

  許多頑固的 HPC 書(shū)呆子對(duì)集群感到失望,聲稱它不是“真正的”HPC。人們說(shuō),它只是容量,而不是能力。(IDC HPC 分析師團(tuán)隊(duì)甚至將“容量 HPC”和“能力 HPC”納入其市場(chǎng)方法論;這種命名法持續(xù)了多年。)人們抱怨集群不適合帶寬受限的應(yīng)用程序,它會(huì)導(dǎo)致系統(tǒng)利用率低,并且不值得移植。這些與今天關(guān)于 GPU 和較低精度的爭(zhēng)論非常相似。

  當(dāng)然,集群最終勝出,盡管轉(zhuǎn)變過(guò)程耗時(shí)約十年。集群是行業(yè)標(biāo)準(zhǔn),而且成本低廉。一旦應(yīng)用程序完成移植到 MPI 的過(guò)程(通常很痛苦),它們就可以輕松地在不同供應(yīng)商的硬件之間遷移。不管喜歡與否,低精度 GPU 很容易成為當(dāng)今的模擬。HPC 工程師的任務(wù)不是設(shè)計(jì)企業(yè)技術(shù),而是利用手頭的技術(shù)。

  高性能計(jì)算的某些領(lǐng)域?qū)⒚媾R更大的威脅或機(jī)遇,這取決于你的觀點(diǎn)。如果人工智能真的能夠像傳統(tǒng)模擬一樣準(zhǔn)確地預(yù)測(cè)結(jié)果,那么人工智能方法將在某些領(lǐng)域真正取代確定性計(jì)算。

  以經(jīng)典的 HPC 案例為例,有限元分析用于碰撞模擬。虛擬碰撞模擬比物理測(cè)試更快、更便宜。汽車公司可以在更短的時(shí)間內(nèi)測(cè)試更多場(chǎng)景,指導(dǎo)開(kāi)發(fā)出最佳解決方案。如果人工智能學(xué)會(huì)了做同樣的事情,或者做得更好,會(huì)怎么樣?我們還會(huì)運(yùn)行確定性應(yīng)用程序嗎?畢竟,虛擬模型從來(lái)都不是實(shí)體汽車的完美代表。

  這種取代的程度(希望)是有限制的。HPC 是一個(gè)(或應(yīng)該是一個(gè))長(zhǎng)期市場(chǎng),因?yàn)槲覀冞€沒(méi)有到達(dá)科學(xué)的盡頭,只要還有科學(xué)要做,還有問(wèn)題要解決,HPC 就有解決它的作用。人工智能仍然是一個(gè)黑匣子,無(wú)法展示它的工作??茖W(xué)是一個(gè)依靠創(chuàng)造性思維的同行評(píng)審過(guò)程。在某些時(shí)候,科學(xué)家需要做數(shù)學(xué)運(yùn)算。但在整個(gè) HPC 應(yīng)用范圍內(nèi),值得考慮的是,在哪些方面我們必須依賴精確的計(jì)算,在哪些方面,一個(gè)非常好的猜測(cè)就足夠了。

  仍有一些前景光明的 HPC 技術(shù)即將問(wèn)世。例如,NextSilicon 逆勢(shì)而上,專注于 HPC 應(yīng)用的 64 位計(jì)算。受非美國(guó) CPU 需求的推動(dòng),歐盟和中國(guó)都在投資開(kāi)發(fā)基于 RISC-V 架構(gòu)的高性能解決方案。也許最令人興奮的是,業(yè)內(nèi)多家供應(yīng)商最近在量子計(jì)算方面取得了重大進(jìn)展。

  從許多方面來(lái)看,2025 年都將成為決定 HPC-AI 發(fā)展方向的轉(zhuǎn)折點(diǎn),不僅影響了本世紀(jì)余下的時(shí)間,還影響了未來(lái)十年。在 Intersect360 Research,我們將定制全年研究日程,以明確這些關(guān)鍵的行業(yè)動(dòng)態(tài)。全球 HPC-AI 用戶可以通過(guò)加入 HALO來(lái)幫助引導(dǎo)對(duì)話。我們正在傾聽(tīng)。我們有一些重大問(wèn)題需要回答。

  *免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

  以上內(nèi)容與證券之星立場(chǎng)無(wú)關(guān)。證券之星發(fā)布此內(nèi)容的目的在于傳播更多信息,證券之星對(duì)其觀點(diǎn)、判斷保持中立,不保證該內(nèi)容(包括但不限于文字、數(shù)據(jù)及圖表)全部或者部分內(nèi)容的準(zhǔn)確性、真實(shí)性、完整性、有效性、及時(shí)性、原創(chuàng)性等。相關(guān)內(nèi)容不對(duì)各位讀者構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。股市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。如對(duì)該內(nèi)容存在異議,或發(fā)現(xiàn)違法及不良信息,請(qǐng)發(fā)送郵件至,我們將安排核實(shí)處理。如該文標(biāo)記為算法生成,算法公示請(qǐng)見(jiàn) 網(wǎng)信算備240019號(hào)。