隨著大模型規(guī)模的增長、數(shù)據(jù)處理需求的提升以及復(fù)雜算法運算的不斷增加,對算力的需求逐漸攀升。大模型的運行可以分成訓(xùn)練和推理兩個階段。訓(xùn)練階段需要高性能、大規(guī)模訓(xùn)練集群的算力支持,以提升效率和精度;而推理階段則更注重低延遲、低成本以及高能效的算力資源。在訓(xùn)練領(lǐng)域,GPU憑借其出色的并行計算能力和高內(nèi)存帶寬,成為加速大模型訓(xùn)練的關(guān)鍵硬件。在推理場景中,AI ASIC針對特定任務(wù)進行優(yōu)化,能夠在高效能、低成本和高并發(fā)的環(huán)境中發(fā)揮更大優(yōu)勢。
隨著Transformer架構(gòu)大模型的興起,算力需求的增長速度從每兩年約8倍激增至275倍。AIGC技術(shù)的持續(xù)進步依賴于算力基礎(chǔ)設(shè)施的投資,云服務(wù)商、數(shù)據(jù)中心運營商和芯片制造商正在加大對AI算力的投入,全球AI資本支出預(yù)計將從2022年的1325億美元增長至2027年的5124億美元。云服務(wù)商如亞馬遜、谷歌和微軟推出AIaaS服務(wù)平臺,帶動超大規(guī)模數(shù)據(jù)中心建設(shè)和AI服務(wù)器需求的大幅增長。預(yù)計到2029年,全球AI服務(wù)器的出貨量將達到284萬臺。從市場結(jié)構(gòu)來看,訓(xùn)練算力仍占據(jù)市場主導(dǎo)地位,但推理算力的增長速度更快。GPU和AI ASIC市場快速擴展,預(yù)計到2029年,GPU的市場規(guī)模將增至1715億美元,AI ASIC將達到561億美元。
AI算力廠商在算力、功耗和能效方面的創(chuàng)新持續(xù)推動GPU和AI ASIC產(chǎn)品的優(yōu)化。英偉達作為全球GPU市場的領(lǐng)導(dǎo)者,持續(xù)推出高效的產(chǎn)品架構(gòu),鞏固了其在大模型算力市場的主導(dǎo)地位。AMD、英特爾、谷歌和亞馬遜等廠商也在通過創(chuàng)新產(chǎn)品來縮小與英偉達的差距,谷歌的TPU系列和亞馬遜的Trainium等產(chǎn)品發(fā)揮了重要作用。臺積電作為全球領(lǐng)先的芯片代工廠商,將AI芯片的制造工藝逐步從7nm推進到更先進的3nm,提升了算力性能和能效。AI ASIC芯片的設(shè)計也越來越多元化,博通和美滿電子在此領(lǐng)域展現(xiàn)出強勁的增長潛力。然而,美國加強對AI芯片出口的管制措施,促使中國廠商加大在AI算力的研發(fā)投入。中國企業(yè)如華為和字節(jié)跳動等正在加速國內(nèi)AI芯片的研發(fā)和量產(chǎn),推動國產(chǎn)AI算力技術(shù)的發(fā)展。
在AI算力產(chǎn)業(yè)鏈布局中,應(yīng)優(yōu)先關(guān)注產(chǎn)業(yè)成熟度高、市場規(guī)模大的細分領(lǐng)域。(本部分有刪減,招商銀行各行部請登錄“招銀智庫”查閱原文)
(1)宏觀經(jīng)濟波動的風(fēng)險。(2)技術(shù)研發(fā)的風(fēng)險。(3)市場競爭加劇的風(fēng)險。(4)政策監(jiān)管的風(fēng)險。(5)供應(yīng)鏈中斷的風(fēng)險。(6)商業(yè)化不確定的風(fēng)險。
AI算力是推動大模型快速發(fā)展的關(guān)鍵驅(qū)動力,AIGC技術(shù)的不斷進步依賴于算力的創(chuàng)新與發(fā)展。本報告圍繞算力技術(shù)的演變趨勢、大模型訓(xùn)練和推理所需算力資源的市場規(guī)模與供給情況,分析AI算力產(chǎn)業(yè)鏈中的相關(guān)機會,并探討中國廠商在這一領(lǐng)域的機遇與挑戰(zhàn),最后總結(jié)商業(yè)銀行在AI算力賽道中的業(yè)務(wù)機會與潛在風(fēng)險。
近年來,大模型如GPT-3、GPT-4、ChatGPT等引發(fā)了廣泛關(guān)注,成為推動AIGC領(lǐng)域快速發(fā)展的關(guān)鍵力量。GPT-3由OpenAI于2020年推出,擁有1750億個參數(shù),展現(xiàn)出了驚人的生成能力,能夠完成諸如撰寫文章、回答問題、翻譯文本等多樣化任務(wù),讓人們看到大模型在自然語言處理領(lǐng)域的巨大潛力。GPT-4進一步將參數(shù)規(guī)模擴展到1.8萬億,在知識理解、邏輯推理等方面實現(xiàn)了重大突破,其應(yīng)用場景也更為廣泛,從簡單的文本交互拓展到輔助專業(yè)領(lǐng)域的決策支持。ChatGPT則憑借出色的對話交互能力,在全球范圍內(nèi)迅速走紅,通過大量的對話數(shù)據(jù)訓(xùn)練,能夠與用戶進行流暢、自然的交流,滿足人們?nèi)粘5男畔@取、知識咨詢需求。未來大模型將朝著更加智能化、多模態(tài)融合以及行業(yè)專業(yè)化方向發(fā)展。
隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)、自注意力機制(如Transformer)、圖神經(jīng)網(wǎng)絡(luò)(GNN)等復(fù)雜算法的廣泛應(yīng)用,模型的算法復(fù)雜性持續(xù)增加。這些復(fù)雜算法需要強大的算力支持,以確保高效的計算,尤其是在訓(xùn)練過程中,隨著模型深度和參數(shù)數(shù)量的增長,計算復(fù)雜性和運算量呈指數(shù)級增長。例如,GPT-3擁有1750億個參數(shù),每次訓(xùn)練都需要進行數(shù)十萬次甚至百萬次的矩陣乘法運算,這對于傳統(tǒng)計算硬件來說是巨大的挑戰(zhàn)。GPU等專用硬件能夠通過并行處理大量的計算任務(wù),大幅提升訓(xùn)練效率,使得大模型的訓(xùn)練成為可能。
早期的神經(jīng)網(wǎng)絡(luò)模型參數(shù)僅有數(shù)百萬甚至更少,而如今頭部大模型參數(shù)以千億、萬億計。模型規(guī)模的不斷擴大,對算力的要求也隨之急劇攀升。訓(xùn)練一個擁有百億參數(shù)的大模型與訓(xùn)練一個千億參數(shù)的大模型相比,計算量可能相差數(shù)十倍甚至更多。隨著模型參數(shù)的增加,訓(xùn)練和推理所需的計算資源呈指數(shù)增長。每一個模型參數(shù)都需要在訓(xùn)練過程中進行優(yōu)化,每次模型訓(xùn)練時,都需要對數(shù)以百萬計的參數(shù)進行計算,這意味著需要更多的算力資源來并行處理這些計算任務(wù)。
大模型通常依賴于海量的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)包括文本、圖像、音頻、視頻等多模態(tài)信息,且來源廣泛、質(zhì)量參差不齊。為了提高模型的準確性和通用性,必須對這些原始數(shù)據(jù)進行處理,包括數(shù)據(jù)清洗、標注和預(yù)處理等。處理過程中涉及到的數(shù)據(jù)任務(wù),如去噪、特征提取、歸一化等,都需要大量的計算資源。隨著數(shù)據(jù)規(guī)模的擴大,這些計算任務(wù)的復(fù)雜性和計算需求也呈現(xiàn)指數(shù)級增長,從而進一步推動了算力的需求。
訓(xùn)練(Training)是讓模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律,優(yōu)化模型的參數(shù),使其能夠?qū)ξ磥淼妮斎胱龀鰷蚀_的預(yù)測或生成合理的輸出。推理(Inference)是利用已經(jīng)訓(xùn)練好的模型,在新的輸入上進行預(yù)測或生成輸出。
在訓(xùn)練過程,模型根據(jù)輸入數(shù)據(jù)和相應(yīng)的標簽,計算損失,并通過反向傳播算法更新模型參數(shù)。訓(xùn)練過程需要大量的計算資源和時間,通常在訓(xùn)練集上多次迭代優(yōu)化,以提升模型的表現(xiàn)。在推理過程,模型參數(shù)(權(quán)重、偏置等)已經(jīng)固定,模型不會再進行參數(shù)更新,而是通過前向傳播計算,直接生成輸出。
推理的質(zhì)量和效果是建立在訓(xùn)練階段模型學(xué)習(xí)到的知識和模式之上的。訓(xùn)練階段通過數(shù)據(jù)學(xué)習(xí)和優(yōu)化,賦予了模型對數(shù)據(jù)的理解和生成能力。沒有充分的訓(xùn)練,推理的結(jié)果就會偏離預(yù)期,生成的內(nèi)容也不準確。訓(xùn)練階段使模型能夠理解數(shù)據(jù)和生成高質(zhì)量的內(nèi)容,而推理階段是將這些能力實際應(yīng)用到新數(shù)據(jù)上的過程。
隨著模型規(guī)模的增大,訓(xùn)練時間也會呈指數(shù)級增長。充足的算力能夠讓大模型在短時間內(nèi)完成多次訓(xùn)練迭代,快速探索參數(shù)空間,找到最優(yōu)解。訓(xùn)練時間的縮短意味著更多的實驗迭代、更快速的模型調(diào)優(yōu)和更高效的模型開發(fā)。采用高性能算力集群訓(xùn)練,可以在數(shù)小時內(nèi)完成對中等規(guī)模大模型的初步優(yōu)化,使模型在驗證集上的準確率快速提升;而算力不足時,大模型訓(xùn)練緩慢,可能長時間陷入局部最優(yōu),無法達到理想的精度。
訓(xùn)練是大模型生命周期中計算資源最密集的階段,需要高性能和大規(guī)模集群算力。
訓(xùn)練過程的計算復(fù)雜度極高,主要包括前向傳播和反向傳播計算。在每次模型參數(shù)更新時,通常會涉及大量的矩陣乘法運算,并且模型需要對數(shù)據(jù)集進行多次完整遍歷,以完成學(xué)習(xí)任務(wù)。訓(xùn)練大模型(如GPT、BERT等)需要巨大的計算資源,而GPU因其高度并行的計算能力,成為了訓(xùn)練的核心硬件。為了提升訓(xùn)練速度,通常需要將多個GPU互聯(lián)組成集群,通過并行處理大量的數(shù)據(jù)和計算任務(wù)來顯著縮短訓(xùn)練時間。GPU集群能夠分擔(dān)計算負載,尤其在處理大規(guī)模數(shù)據(jù)時,bwin必贏能夠有效提升效率。同時,訓(xùn)練過程還需要依賴高速網(wǎng)絡(luò)和大規(guī)模存儲系統(tǒng),以支持數(shù)據(jù)的快速讀取和模型參數(shù)的頻繁更新。
模型的推理通常需要大量的計算和內(nèi)存帶寬,算力的提升能夠加速推理過程,提高模型的實時反應(yīng)能力。例如,ChatGPT等基于GPT-3的大型對話系統(tǒng),在推理過程中需要高效的算力支持,才能實現(xiàn)流暢的對話和快速的應(yīng)答。強大的算力能夠確保模型在面對大量推理請求時快速響應(yīng);反之,推理速度過慢會導(dǎo)致用戶等待時間過長,降低用戶體驗和使用滿意度。
與訓(xùn)練階段相比,推理的計算復(fù)雜度通常較低,因為它僅涉及前向傳播計算,而不需要進行反向傳播。這意味著推理過程的計算量相對較小,因此通??梢栽谟布阅茌^低的設(shè)備上進行。雖然推理相較于訓(xùn)練的計算需求較低,但仍然對硬件資源有一定的要求。尤其是在生產(chǎn)環(huán)境中,需要滿足實時性和高并發(fā)的要求。根據(jù)任務(wù)的規(guī)模和實時性要求,推理可以在單張GPU、多個GPU,或甚至在CPU上執(zhí)行。單個GPU常用于處理大規(guī)模模型的推理任務(wù),尤其是在需要高吞吐量和實時響應(yīng)的場景中,而對于較簡單的任務(wù)或低實時性需求,CPU也可以作為推理的選擇。
推理階段的算力需求主要受到用戶訪問頻率、并發(fā)請求數(shù)量和模型規(guī)模的影響。為了滿足這些需求,優(yōu)化推理效率、降低延遲、提高能效比是推理任務(wù)中的關(guān)鍵目標。此外,隨著用戶請求的增加,如何通過硬件優(yōu)化、模型量化、知識蒸餾等技術(shù)進一步提升推理效率,成為當(dāng)今AI應(yīng)用中面臨的重要挑戰(zhàn)。與訓(xùn)練相比,推理任務(wù)的計算負擔(dān)較輕,但其需求的并發(fā)性和實時性要求更高。在推理階段,尤其是在延遲敏感和帶寬有限的應(yīng)用場景中,邊緣計算布局可以顯著優(yōu)化推理效率。通過將計算任務(wù)推向離用戶更近的邊緣設(shè)備,能夠減少數(shù)據(jù)傳輸延遲、降低帶寬壓力并提高響應(yīng)速度。因此,邊緣計算在推理任務(wù)中扮演著至關(guān)重要的角色,特別是對于需要快速決策和實時反饋的應(yīng)用場景,如自動駕駛、智能制造和物聯(lián)網(wǎng)設(shè)備等。
大模型需要不同類型的算力芯片,以支持更高計算密度、更低延遲和更高能效。
傳統(tǒng)的計算架構(gòu)(如CPU)已經(jīng)難以滿足大模型算力需求,因此專為AI設(shè)計芯片成為了主流。AI芯片根據(jù)不同的應(yīng)用場景和硬件架構(gòu),主要分為以下幾類:GPU(圖形處理器)、FPGA(現(xiàn)場可編程門陣列)、AI ASIC(專用集成電路)和NPU(神經(jīng)處理單元)。GPU仍然是大規(guī)模訓(xùn)練和高效并行計算的主力軍,F(xiàn)PGA主要用于低延遲和特定任務(wù)的加速,而AI ASIC和NPU則是為大規(guī)模、高效的推理任務(wù)提供專用計算單元。例如,谷歌的TPU、亞馬遜的Trainium和微軟的Maia都是AI ASIC的代表產(chǎn)品。
AI芯片必須能夠在更小的面積內(nèi)提供更高的計算密度。這可以通過提高芯片的集成度、增加處理單元數(shù)量以及優(yōu)化計算架構(gòu)來實現(xiàn)。通過更高的計算密度,芯片可以在更短的時間內(nèi)處理更多的計算任務(wù),顯著提高效率。
尤其在推理階段,大模型需要快速響應(yīng),處理大量的數(shù)據(jù)請求。芯片設(shè)計必須優(yōu)化數(shù)據(jù)流的傳輸,減少中間環(huán)節(jié)的延遲,提高數(shù)據(jù)的吞吐能力。通過高速緩存、數(shù)據(jù)流架構(gòu)和并行計算等技術(shù),AIGC芯片能夠在保證低延遲的前提下,實現(xiàn)高吞吐量。
算力芯片在處理復(fù)雜計算任務(wù)時,能效比(性能與功耗的比值)成為了決定芯片性能的重要因素。
為了降低能源消耗并減少計算成本,AI芯片的設(shè)計必須致力于在提供強大計算力的同時,保持低功耗。需要硬件設(shè)計和算法層面的深度優(yōu)化,例如通過量化技術(shù)、低精度計算、動態(tài)電壓頻率調(diào)整等手段,優(yōu)化芯片的能效比。
在大模型訓(xùn)練領(lǐng)域,GPU架構(gòu)憑借其出色的并行計算能力和高內(nèi)存帶寬,成為加速模型訓(xùn)練的關(guān)鍵硬件。
最初,GPU設(shè)計的目的是加速圖形渲染和顯示,廣泛應(yīng)用于游戲、視頻制作及其他圖形處理任務(wù)。然而,隨著人工智能(AI)技術(shù)的快速發(fā)展,GPU逐漸成為AI領(lǐng)域,尤其是深度學(xué)習(xí)中不可或缺的計算單元。與傳統(tǒng)的CPU相比,CPU通常具有較少的高效核心,適合處理串行任務(wù),而GPU則包含數(shù)千個處理核心,這些核心能夠同時處理多個任務(wù),使得GPU在大規(guī)模并行計算中表現(xiàn)出顯著優(yōu)勢。深度學(xué)習(xí)模型的訓(xùn)練本質(zhì)上涉及大量的矩陣運算,這些運算可以高度并行化,GPU的并行計算能力使得訓(xùn)練過程得以大幅度加速。此外,GPU具有較高的內(nèi)存帶寬,在訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)時,大量的參數(shù)和數(shù)據(jù)需要頻繁地在GPU的內(nèi)存和計算核心之間傳輸。較高的內(nèi)存帶寬可以有效減少數(shù)據(jù)傳輸中的瓶頸,加速整體訓(xùn)練過程。
大模型訓(xùn)練的一個關(guān)鍵挑戰(zhàn)是訓(xùn)練時間的長度,特別是對于大規(guī)模神經(jīng)網(wǎng)絡(luò),訓(xùn)練過程可能需要數(shù)天甚至數(shù)周的時間。GPU的高并行計算能力顯著縮短了這一過程,尤其是在訓(xùn)練大語言模型時,GPU能夠并行處理多個輸入數(shù)據(jù)并計算梯度,在數(shù)天內(nèi)完成數(shù)百萬次迭代訓(xùn)練。GPU設(shè)計集成了許多專門為AI任務(wù)優(yōu)化的硬件加速單元。例如,英偉達的Tensor Core專門加速深度學(xué)習(xí)中的張量計算,能夠大幅提升矩陣乘法的吞吐量,并減少計算過程中的延遲,進一步加速訓(xùn)練過程。通過這些硬件加速,GPU不僅加快了訓(xùn)練速度,還使得訓(xùn)練大規(guī)模深度學(xué)習(xí)模型成為可能,推動了AI技術(shù)的快速發(fā)展。
大模型的訓(xùn)練通常需要大量的計算資源和長時間的計算,因此高昂的計算成本一直是一個挑戰(zhàn)。然而,GPU能夠顯著縮短訓(xùn)練時間,從而減少計算資源的消耗。通過并行計算,GPU能夠以更高的效率處理數(shù)據(jù),大幅降低整體計算成本。特別是在使用多個GPU進行分布式訓(xùn)練時,訓(xùn)練速度加快的同時,整體計算成本也得以顯著降低。
相對計算單元(RCU)是指每單位計算任務(wù)所需的計算資源。隨著GPU技術(shù)的進步,架構(gòu)優(yōu)化、效率提升和算法優(yōu)化,GPU能夠以更少的硬件資源完成相同數(shù)量的計算任務(wù),這直接導(dǎo)致了AI計算單元的成本下降。根據(jù)ARK的分析,AI相對計算單元的成本預(yù)計每年將降低53%。
此外,GPU的高效能和低功耗特點使其在訓(xùn)練和推理中具有更高的性價比。GPU能夠以更少的能源消耗完成更多的計算任務(wù),從而降低了訓(xùn)練過程中的能源成本。例如,根據(jù)英偉達的數(shù)據(jù),每個Token生產(chǎn)所消耗的能量,從Pascal架構(gòu)的17000焦耳下降到Blackwell架構(gòu)的0.4焦耳/token,下降幅度達99.8%,GPU能效的提升顯著降低了運營成本。
隨著深度學(xué)習(xí)模型的規(guī)模不斷擴大,單個GPU的計算能力已經(jīng)難以滿足需求。為了應(yīng)對這一挑戰(zhàn),現(xiàn)代深度學(xué)習(xí)框架(如TensorFlow)已經(jīng)支持多GPU并行訓(xùn)練。通過將模型和數(shù)據(jù)劃分到多個GPU上進行計算,訓(xùn)練過程能夠大幅加速,尤其是在訓(xùn)練非常大或復(fù)雜的模型時,多GPU并行訓(xùn)練顯得尤為重要。多GPU并行訓(xùn)練不僅可以大幅減少訓(xùn)練時間,還能有效解決大規(guī)模模型無法完全加載到單個GPU顯存中的問題。通過分布式計算,多個GPU可以協(xié)同工作,利用各自的計算資源共同完成訓(xùn)練任務(wù),從而提升整體訓(xùn)練效率和訓(xùn)練規(guī)模。尤其在大模型和大數(shù)據(jù)集的訓(xùn)練中,分布式GPU集群能夠幫助AI研究者和工程師更快、更高效地訓(xùn)練出性能卓越的模型。
AI ASIC(Application-Specific Integrated Circuit)是專門為執(zhí)行某一特定類型的計算任務(wù)(如AIGC推理)而設(shè)計和制造的集成電路。與通用硬件(如GPU)不同,AI ASIC是針對特定工作負載進行了優(yōu)化,能夠提供更高的計算效率、低延遲和更低的功耗。其核心目的是提高處理速度并減少不必要的計算開銷,從而更好地處理機器學(xué)習(xí)、深度學(xué)習(xí)和其他AIGC任務(wù)。
AI ASIC在某些高效能、低成本、高并發(fā)的應(yīng)用場景中,相較于傳統(tǒng)GPU具有明顯優(yōu)勢。
GPU作為通用計算平臺,在處理某些計算任務(wù)時可能存在性能瓶頸和較高功耗;而AI ASIC專門針對特定操作(如深度學(xué)習(xí)中的矩陣運算、卷積等)進行優(yōu)化,能夠在這些任務(wù)上提供更高的性能和更低的功耗。雖然GPU在訓(xùn)練過程中表現(xiàn)強勁,但在推理任務(wù)(尤其是低延遲和高吞吐量的推理)中,并不是最優(yōu)選擇。AI ASIC則能夠針對推理任務(wù)進行高度優(yōu)化,通常在這些應(yīng)用中表現(xiàn)得比GPU更加高效。雖然GPU具有強大的計算性能,但其成本較高,特別是在大規(guī)模部署時,可能導(dǎo)致較高的硬件和運營開銷。相比之下,AI ASIC在成本和功耗方面通常比GPU更具優(yōu)勢,適合大規(guī)模部署的場景。隨著AI應(yīng)用的復(fù)雜性不斷增加,單純依賴GPU可能無法滿足日益復(fù)雜的計算需求。AI ASIC的定制化設(shè)計使其能夠更好地適應(yīng)特定類型的AI任務(wù),并優(yōu)化計算資源的使用。
AI ASIC能夠提供更高的計算效率、低功耗和低延遲,尤其適合推理和邊緣計算任務(wù)。
AI ASIC在推理任務(wù)中尤其表現(xiàn)突出,特別是在需要低延遲和高吞吐量的應(yīng)用場景。例如,谷歌的TPU被廣泛用于云端AI推理服務(wù),如Google Search和YouTube推薦等。AI ASIC還非常適合部署在邊緣設(shè)備上,因為其高效計算和低功耗特性可以支持在硬件資源有限的環(huán)境中進行AI推理。在某些特定的神經(jīng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練中,AI ASIC也能提供高效的解決方案。
AI ASIC可以分為推理專用ASIC、訓(xùn)練專用ASIC和混合用途ASIC。
推理專用ASIC的目標是優(yōu)化能源效率,同時最大限度地減少計算延遲。常見的推理專用ASIC有Google TPU v5e和Amazon Inferentia。Google TPU v5e在推理方面具備強勁的性能、高性價比、良好的可擴展性以及廣泛的軟件框架支持。Amazon Inferentia具有高性價比和易于集成與使用的特點,專為推理任務(wù)優(yōu)化,適合大規(guī)模AI服務(wù)應(yīng)用。訓(xùn)練專用ASIC的目標是提供極高的計算能力,優(yōu)化深度學(xué)習(xí)模型的訓(xùn)練速度。常見的訓(xùn)練專用ASIC有Google TPU v5p和AWS Trainium。Google TPU v5p在大規(guī)模訓(xùn)練任務(wù)中表現(xiàn)出色,具有更強的性能、靈活性和可擴展性,適用于多種深度學(xué)習(xí)訓(xùn)練場景。AWS Trainium通過優(yōu)化架構(gòu)設(shè)計,顯著提升深度學(xué)習(xí)模型訓(xùn)練速度,特別適合需要高并行性和低延遲的訓(xùn)練任務(wù)?;旌嫌猛続SIC如Cerebras Wafer-Scale Engine,主要面向超大規(guī)模深度學(xué)習(xí)訓(xùn)練,能夠處理極其龐大的神經(jīng)網(wǎng)絡(luò),適合高性能計算需求和超大規(guī)模訓(xùn)練任務(wù)。
隨著AIGC技術(shù)的迅猛發(fā)展,特別是基于Transformer架構(gòu)的大規(guī)模AI模型的崛起,對算力的需求呈現(xiàn)出指數(shù)級增長。
這些先進的AI模型在訓(xùn)練和推理過程中需要巨大的計算資源,包括高性能GPU、bwin必贏高速存儲系統(tǒng)以及高帶寬的通信網(wǎng)絡(luò)。自2017年Transformer模型問世以來,Transformer架構(gòu)已成為構(gòu)建大規(guī)模模型的基礎(chǔ)。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu),Transformer摒棄了序列數(shù)據(jù)的順序處理方式,采用了自注意力機制,能夠并行處理整個數(shù)據(jù)序列,大幅提高了訓(xùn)練和推理效率。
根據(jù)英偉達的數(shù)據(jù),在引入Transformer架構(gòu)之前,算力需求的增長速率為每兩年約8倍;然而,采用Transformer架構(gòu)后,算力需求的增長幅度激增,達到了每兩年約275倍。這一變革性進展迫使數(shù)據(jù)中心朝著超大規(guī)模方向發(fā)展,以滿足日益增長的計算需求,并確保提供更強的計算能力和更好的可擴展性。同時,AI服務(wù)器集群也在快速迭代和升級,以確保能夠滿足這些前所未有的算力要求。
根據(jù)Scaling-law法則,大模型的性能與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量和計算資源成正比。
且隨著這些因素的增加,模型性能呈顯著提升。在AIGC大模型的算力需求方面,隨著模型參數(shù)規(guī)模、Token數(shù)量以及訓(xùn)練所需算力的同步增長,模型性能不斷優(yōu)化。例如,GPT-4的參數(shù)量從GPT-3的約1750億增加到約1.8萬億,增幅超過10倍;同時,訓(xùn)練數(shù)據(jù)集的規(guī)模也從GPT-3的幾千億Token擴展到13萬億Token。這一規(guī)模的增長極大地提升了GPT-4在處理復(fù)雜問題和生成自然文本方面的能力。
然而,隨著AIGC大模型性能的提升,對計算資源的需求也呈現(xiàn)出指數(shù)級的增長。
以GPT-4為例,其訓(xùn)練過程需要約2.15e25 FLOPS的運算量,相當(dāng)于需要約25000塊A100 GPU的協(xié)作,且訓(xùn)練周期長達90至100天。此外,數(shù)據(jù)采集、模型優(yōu)化和強化學(xué)習(xí)等環(huán)節(jié)的額外開銷,使得整體訓(xùn)練成本變得更加高昂。根據(jù)斯坦福大學(xué)2024年發(fā)布的《AI指數(shù)報告》,AIGC模型的訓(xùn)練成本正經(jīng)歷劇烈上漲。具體而言,GPT-4的訓(xùn)練成本從2022年GPT-3的約430萬美元激增至2023年的7835萬美元,呈現(xiàn)出近18倍的增長。隨著模型的規(guī)模不斷擴大以及訓(xùn)練過程的日益復(fù)雜,這些成本預(yù)計將持續(xù)攀升。
隨著大模型規(guī)模的不斷擴展,其訓(xùn)練成本也不斷攀升。EPOCH AI估算了45個前沿大模型(其中包括發(fā)布時計算量排名前10的模型)的訓(xùn)練成本,發(fā)現(xiàn)前沿模型的訓(xùn)練成本(包括硬件攤銷和能源消耗)自2016年以來增長迅速,年均增幅達到2.6倍。隨著技術(shù)的進步和模型規(guī)模的擴大,預(yù)計到2027年,最大規(guī)模的大模型訓(xùn)練成本將突破10億美元。這意味著,除非具備強大資金支持的組織,否則前沿大模型的訓(xùn)練將變得不再可行,對絕大多數(shù)組織而言,這種訓(xùn)練成本將是不可承受的負擔(dān)。
AIGC的迅猛發(fā)展高度依賴于算力基礎(chǔ)設(shè)施的建設(shè)和算力資源的供給。云服務(wù)商、數(shù)據(jù)中心運營商以及芯片制造商在算力領(lǐng)域的投資力度,直接決定了AIGC應(yīng)用能否實現(xiàn)突破性發(fā)展。根據(jù)IDC的預(yù)測,全球AI資本支出預(yù)計將從2022年的1325億美元增長到2027年的5124億美元,年復(fù)合增長率為31.1%。這一增長反映了AIGC技術(shù)在多個行業(yè)中日益重要的地位。
云服務(wù)商正在積極推動AI算力即服務(wù)(AIaaS)模式,以降低AIGC技術(shù)應(yīng)用的門檻并簡化企業(yè)對基礎(chǔ)設(shè)施的投入需求。
通過提供定制化的AIGC解決方案,云服務(wù)商可以幫助企業(yè)和開發(fā)者更快實現(xiàn)AI應(yīng)用的落地。為滿足AIGC應(yīng)用的需求,領(lǐng)先的云服務(wù)商已經(jīng)推出了自有的定制化AI芯片(如Google的TPU和Amazon的Inferentia),這些芯片專門針對AIGC應(yīng)用進行優(yōu)化,提供更高效、低成本的計算能力。越來越多的AIGC企業(yè)選擇在多個云平臺之間分配計算任務(wù),以利用各平臺的優(yōu)勢和算力資源,選擇最合適的部署方案。
云服務(wù)商持續(xù)加大對AIGC專用硬件和服務(wù)平臺的投資,以滿足大規(guī)模模型訓(xùn)練和推理對算力的需求。
主要云服務(wù)商已推出專門的AI云服務(wù),如AWS的SageMaker、Azure的AI基礎(chǔ)設(shè)施和Google Cloud的AI Platform。這些服務(wù)為企業(yè)提供靈活的AIGC模型訓(xùn)練和推理解決方案,滿足不同規(guī)模企業(yè)的多樣化需求。云服務(wù)商還提供GPU和AI ASIC實例,幫助用戶更高效地運行AIGC任務(wù)。AWS、Azure和Google Cloud等云平臺已在其數(shù)據(jù)中心大規(guī)模部署這些高性能計算資源,以支持AIGC的復(fù)雜工作負載。
為了支持大規(guī)模AIGC訓(xùn)練,許多數(shù)據(jù)中心運營商和大型科技公司開始建設(shè)超大規(guī)模的數(shù)據(jù)中心。這些數(shù)據(jù)中心通常分布在多個地區(qū),具備極高的計算能力和存儲容量,特別優(yōu)化了AI任務(wù)的處理,支持分布式計算、低延遲以及高帶寬的數(shù)據(jù)傳輸。大型云服務(wù)商正在投資建設(shè)專門為AI工作負載優(yōu)化的數(shù)據(jù)中心,配備大量GPU、TPU等算力資源,以支持AIGC模型的訓(xùn)練和推理。
根據(jù)海外云服務(wù)巨頭的資本開支計劃,亞馬遜、微軟、谷歌和Meta等公司正持續(xù)增加對AIGC基礎(chǔ)設(shè)施的投資。
2021至2023年間,這四家云服務(wù)商的總資本支出達到4670億美元,年均約1550億美元。到2024年第二季度,四家云服務(wù)商的資本支出已達520億美元,同比增長54%,主要用于數(shù)據(jù)中心的AIGC基礎(chǔ)設(shè)施建設(shè),以推動產(chǎn)品轉(zhuǎn)型和技術(shù)升級。以微軟為例,2024財年第四季度的資本開支為190億美元,其中云和AI相關(guān)支出占比高達50%。這一部分資金中,約一半將用于IDC基礎(chǔ)設(shè)施建設(shè),另一半將用于采購GPU和CPU服務(wù)器。展望未來,預(yù)計2024至2027年間,四家云服務(wù)商將在AIGC領(lǐng)域的資本支出總額將達到8500億美元,年均2125億美元,進一步推動其在競爭激烈的AIGC市場中的領(lǐng)先地位,并促進技術(shù)創(chuàng)新和市場增長。
從海外云服務(wù)公司管理層的表態(tài)來看,針對AIGC領(lǐng)域的高額資本支出預(yù)計將持續(xù)較長時間。
Meta CEO馬克·扎克伯格強調(diào),保持在AI領(lǐng)域的領(lǐng)先地位至關(guān)重要,并警告稱,投資不足可能會導(dǎo)致Meta在未來10至15年內(nèi)處于競爭劣勢。谷歌CEO桑達爾·皮查伊表示,公司將傾向于超額投資,確保在AI領(lǐng)域抓住收入機會,即便面臨資源過剩的風(fēng)險。亞馬遜CFO布萊恩·奧爾薩夫斯基預(yù)計,2024年下半年資本支出將持續(xù)增長,主要投資于滿足AI市場的需求。微軟CFO艾米·胡德宣布,將加大AI基礎(chǔ)設(shè)施建設(shè)投入,預(yù)計2025財年將刷新資本支出記錄,以應(yīng)對日益增長的AIGC和云服務(wù)產(chǎn)品需求。
中國的AI資本支出預(yù)計將從2022年的128億美元增至2027年的400億美元,年復(fù)合增長率為25.6%。以云服務(wù)商為例,字節(jié)跳動的資本開支預(yù)算預(yù)計從2024年的800億元大幅增長至2025年的1500億元以上,主要用于AI算力采購和IDC基礎(chǔ)設(shè)施建設(shè)。電信運營商方面,中國移動2024年資本開支預(yù)計為1730億元,其中算力領(lǐng)域的投入預(yù)計達到475億元,同比增長21.5%,占資本開支比重提升至27.5%。中國將繼續(xù)在亞太地區(qū)AI市場發(fā)展中發(fā)揮引領(lǐng)作用,預(yù)計其AI資本支出將占亞太地區(qū)總支出的50%。
AIGC推動云服務(wù)商提供訓(xùn)練和推理的按需服務(wù),這將進一步促進數(shù)據(jù)中心業(yè)務(wù)增長。
根據(jù)Synergy Research Group的數(shù)據(jù),全球數(shù)據(jù)中心市場規(guī)模近年來持續(xù)增長,尤其在北美、歐洲和中國表現(xiàn)強勁。截至2023年底,全球活躍的超大規(guī)模數(shù)據(jù)中心增至992個。預(yù)計,未來十年每年將有120-130個超大規(guī)模數(shù)據(jù)中心上線年底,美國占全球超大規(guī)模數(shù)據(jù)中心的51%,歐洲和中國分別占17%和16%。在數(shù)據(jù)中心客戶方面,公有云市場領(lǐng)先的三巨頭亞馬遜、微軟和谷歌占據(jù)主導(dǎo)地位,這三家公司占據(jù)了所有超大規(guī)模數(shù)據(jù)中心容量的60%,緊隨其后的是Meta、阿里巴巴、騰訊、蘋果和字節(jié)跳動。
根據(jù)Yole的預(yù)測,AI服務(wù)器的出貨量將從2023年的112萬臺增至2029年的284萬臺,年復(fù)合增長率為16.8%。AI服務(wù)器在數(shù)據(jù)中心服務(wù)器出貨量中的占比將從2023年的8%提升至2029年的18%。
GPU服務(wù)器依然是AI算力的重要載體,尤其在AIGC訓(xùn)練和推理任務(wù)中,GPU服務(wù)器的優(yōu)勢顯著。
根據(jù)Yole的預(yù)測,GPU服務(wù)器的出貨量將從2023年的66萬臺增至2029年的139萬臺,年復(fù)合增長率為13.0%。然而,GPU服務(wù)器在AI服務(wù)器出貨量中的占比將從2022年的63%逐步下降至2029年的49%。這主要受到AI ASIC服務(wù)器日益增長的市場份額的影響。
盡管靈活性較差,AI ASIC服務(wù)器主要應(yīng)用于推理等特定場景的計算任務(wù)。隨著AIGC應(yīng)用的加速、云服務(wù)的擴展以及定制化算力需求的提升,AI ASIC服務(wù)器的市場需求也在增長。根據(jù)Yole的預(yù)測,AI ASIC服務(wù)器的出貨量將從2023年的45萬臺增至2029年的145萬臺,年復(fù)合增長率為21.4%。
為了應(yīng)對訓(xùn)練任務(wù)日益復(fù)雜的計算需求,新一代GPU需要采用更先進的制造工藝(如5nm、3nm制程)和更高規(guī)格的硬件組件,這推動了單個GPU的制造成本上升,進而導(dǎo)致其ASP(平均銷售價格)的增長。AIGC算力需求的增加也進一步推動了高端GPU的需求,這些高端GPU的售價較高,從而推動了整體GPU ASP的上升。根據(jù)Yole的預(yù)測,AI GPU的ASP將從2023年的8991美元增長至2029年的18449美元。與此同時,全球數(shù)據(jù)中心GPU市場的出貨量持續(xù)攀升,2023年出貨量達到了423萬顆,較2022年的258萬顆增長了64%。預(yù)計AI GPU市場規(guī)模將從2023年的380億美元增長至2029年的1715億美元,年復(fù)合增長率為28.6%。
AI ASIC是為特定任務(wù)量身定制的,通常需要大量的前期研發(fā)投入。設(shè)計一款針對AI應(yīng)用的ASIC芯片需要耗費大量資源、時間和技術(shù),這些成本最終會反映在銷售價格中。AI ASIC采用最先進的半導(dǎo)體工藝,這些工藝不僅提升了性能和效率,也帶來了更高的制造成本。根據(jù)Yole的預(yù)測,AI ASIC的ASP將從2023年的4233美元增長至2029年的6457美元。AI ASIC市場規(guī)模預(yù)計將以快速增長的態(tài)勢發(fā)展,從2023年的115億美元增至2029年的561億美元,年復(fù)合增長率為30.2%。
從算力市場的結(jié)構(gòu)來看,訓(xùn)練算力仍占據(jù)主導(dǎo)地位,但推理算力的增長速度更快。
根據(jù)彭博的預(yù)測,AIGC硬件市場將從2022年的350億美元增長至2032年的6400億美元,這一增長趨勢反映了AIGC技術(shù)在訓(xùn)練和推理兩個關(guān)鍵環(huán)節(jié)對算力資源的強大需求。訓(xùn)練算力是當(dāng)前AIGC算力市場的核心,彭博預(yù)計訓(xùn)練硬件市場規(guī)模將從2022年的320億美元增長至2032年的4710億美元,年復(fù)合增長率為31%。
推理算力的增長速度超過了訓(xùn)練算力,這主要得益于推理任務(wù)在邊緣計算、云服務(wù)和各種AI應(yīng)用中的廣泛部署,特別是在低延遲和高效能硬件需求日益增長的背景下。隨著AIGC應(yīng)用的爆發(fā),推理硬件市場的增速將更為迅猛,預(yù)計推理硬件的市場規(guī)模將從2022年的30億美元增長至2032年的1690億美元,年復(fù)合增長率為48%。
GPU和AI ASIC市場正處于快速發(fā)展階段,主要廠商的長期產(chǎn)品路線圖著重提升計算能力、降低功耗并提高能效。
英偉達繼續(xù)鞏固其在AIGC算力市場的領(lǐng)導(dǎo)地位,AMD和英特爾則通過持續(xù)創(chuàng)新的GPU產(chǎn)品力圖縮小與英偉達的差距。代表性產(chǎn)品包括英偉達的A100和H100、AMD的MI300系列,這些GPU產(chǎn)品推動了AIGC技術(shù)的發(fā)展,進一步加速了大模型的訓(xùn)練和應(yīng)用落地。與此同時,谷歌和亞馬遜也在不斷優(yōu)化其AI ASIC產(chǎn)品,以提升推理和訓(xùn)練效率,鞏固在云計算和AIGC領(lǐng)域的技術(shù)優(yōu)勢,代表性產(chǎn)品有谷歌的TPU系列、亞馬遜的Trainium和Inferentia系列。
英偉達作為全球GPU市場的領(lǐng)軍者,其產(chǎn)品在AIGC領(lǐng)域中扮演了關(guān)鍵角色。英偉達推出了多個成功的GPU架構(gòu)系列,如Volta、Turing、Ampere和Hopper等,這些架構(gòu)配備了專為深度學(xué)習(xí)設(shè)計的專用計算單元Tensor Core,顯著提高了大模型訓(xùn)練與推理的效率。2024年3月,英偉達發(fā)布了基于Blackwell架構(gòu)的產(chǎn)品,并計劃于2026年推出下一代AI平臺“Rubin”,預(yù)計將在算力、能效和性能上進一步提升,鞏固其在AIGC市場的領(lǐng)導(dǎo)地位。
AMD則主要采用CDNA系列架構(gòu),并在其設(shè)計中引入了Matrix Core和Infinity Fabric等技術(shù),致力于提升計算單元規(guī)模,同時優(yōu)化內(nèi)存和緩存設(shè)計。AMD計劃在2025年推出CDNA4架構(gòu),支持FP4和FP6精度,預(yù)計將在大模型推理任務(wù)中顯著提升性能,進一步增強其在訓(xùn)練和推理領(lǐng)域的競爭力。
谷歌是AI ASIC的領(lǐng)導(dǎo)者。谷歌TPU系列是最熱門的AI ASIC芯片之一,廣泛應(yīng)用于Google云服務(wù)中。TPU v5e在推理任務(wù)中具有較高性價比,而TPU v5p則在大規(guī)模訓(xùn)練任務(wù)中表現(xiàn)卓越,能夠在更短時間內(nèi)完成更多計算任務(wù),顯著提高訓(xùn)練效率。2024年5月,谷歌發(fā)布了第六代AI ASIC處理器——Trillium(TPU v6),該產(chǎn)品在計算性能、能效比和可擴展性方面都做出了大幅提升,進一步鞏固了谷歌在云計算和AIGC領(lǐng)域的技術(shù)優(yōu)勢。
亞馬遜打造高性能AI ASIC。亞馬遜在AI ASIC領(lǐng)域也取得了顯著進展,Inferentia專為AI推理任務(wù)設(shè)計,Trainium則專門為大模型訓(xùn)練而開發(fā)。亞馬遜計劃在2025年底推出Trainium3,旨在滿足新一代生成式AI工作負載的高性能需求,該產(chǎn)品將突出性能、能效和密度,設(shè)立新的標桿。
英特爾推出了Gaudi系列AI加速器,專門設(shè)計用于加速大模型訓(xùn)練。2024年10月,英特爾發(fā)布了Gaudi3,算力性能顯著提升,在FP8精度下算力能力是Gaudi2的2倍,而在BF16精度下是Gaudi2的4倍。與其他主流產(chǎn)品如英偉達的H100相比,Gaudi3在價格上具有明顯優(yōu)勢,有助于降低AIGC訓(xùn)練的硬件成本,尤其對企業(yè)和研究機構(gòu)具有吸引力。
臺積電是全球最重要的GPU和AI ASIC芯片代工廠商,其制造工藝直接決定了AI芯片的計算性能和能效比。
隨著技術(shù)進步,AI芯片的制造工藝正從7nm逐步邁向更先進的5nm和3nm工藝。作為全球領(lǐng)先的半導(dǎo)體代工廠,臺積電為眾多重要的GPU和AI ASIC芯片提供制造能力,其技術(shù)能力和產(chǎn)能在AI芯片供應(yīng)鏈中具有不可替代的地位。
英偉達的GPU主要由臺積電代工生產(chǎn),臺積電先進的制造工藝為英偉達的高性能計算GPU提供了強大的技術(shù)支持。英偉達的A100 GPU基于臺積電的7nm工藝制造,而H100 GPU進一步升級至4nm工藝,顯著提升了計算性能和能效表現(xiàn)。即將量產(chǎn)的B200 GPU采用臺積電的N4P工藝,這是一種優(yōu)化版的4nm工藝,能夠在能效和性能之間實現(xiàn)更好的平衡。未來,英偉達計劃繼續(xù)與臺積電深度合作,預(yù)計將在下一代GPU中采用臺積電的3nm工藝,以進一步提升性能和效率。
AMD的CDNA架構(gòu)工藝GPU同樣由臺積電代工打造?;贑DNA 3架構(gòu)的MI300A采用臺積電5nm工藝,MI325X升級至4nm工藝。根據(jù)AMD的長期規(guī)劃,其將于2026年推出基于CDNA 5架構(gòu)的Instinct MI400系列,預(yù)計采用臺積電的更先進工藝,為AIGC領(lǐng)域提供更強的支持。
英特爾則致力于提升其自身制造工藝的水平,例如Intel 4和Intel 3工藝。Ponte Vecchio GPU采用了英特爾的Intel 4工藝,主要應(yīng)用于AIGC領(lǐng)域。然而,與臺積電相比,英特爾在先進的制造工藝技術(shù)上依然不足,英特爾計劃在2025年推出下一代旗艦GPU Falcon Shores,將部分芯片生產(chǎn)轉(zhuǎn)交臺積電,采用其5nm和3nm先進工藝。
谷歌、亞馬遜、Meta、微軟等云服務(wù)商大力推進自主研發(fā)的AI ASIC芯片,此類芯片的設(shè)計服務(wù)和IP供應(yīng)商包括博通(Broadcom)、美滿電子(Marvell)、世芯電子(AIchip)和GUC等。這些公司為AI ASIC芯片設(shè)計提供從前端設(shè)計、架構(gòu)布局到IP授權(quán)的全方位支持,包括計算、存儲、網(wǎng)絡(luò)I/O和封裝等關(guān)鍵領(lǐng)域。同時,設(shè)計團隊還協(xié)助開發(fā)AI芯片定制的軟件開發(fā)工具包和加速庫,以優(yōu)化芯片性能。
以博通為例,自2016年谷歌推出TPU v1以來,博通就與谷歌展開了深度合作,所有已發(fā)布的TPU芯片均由雙方共同設(shè)計。目前,博通已獲得谷歌下一代AI芯片TPU v7的設(shè)計合同。美滿電子同樣積極布局AI ASIC設(shè)計領(lǐng)域,2024年12月與亞馬遜達成為期五年的戰(zhàn)略合作協(xié)議,助力亞馬遜設(shè)計和優(yōu)化自研AI ASIC芯片。
AI ASIC芯片的制造工藝與GPU類似,但由于其高度定制化,對生產(chǎn)工藝的要求更為嚴格。大部分AI ASIC芯片均由臺積電代工。例如,谷歌的TPU系列和亞馬遜的Trainium芯片均采用臺積電的先進制造工藝。谷歌TPU v5采用了5nm工藝,并計劃在未來的產(chǎn)品中升級至3nm或2nm工藝,以進一步提升計算性能和效率。亞馬遜則計劃在2025年推出Trainium 3芯片,該芯片也將采用臺積電3nm工藝。
英偉達作為GPU市場的絕對領(lǐng)導(dǎo)者,其產(chǎn)品在大模型訓(xùn)練和推理市場中占據(jù)主要份額。
根據(jù)Yole的數(shù)據(jù),2023年英偉達服務(wù)器GPU銷售收入達到362億美元,市場份額高達96%。與此同時,AMD和英特爾也在服務(wù)器GPU市場中占有一席之地。AMD的MI300系列GPU憑借出色性能,獲得了微軟和Meta等大客戶的訂單,占據(jù)了3%的市場份額。英特爾則通過Gaudi 2提供高性能且具備成本效益的解決方案,占據(jù)了1%的市場份額。此外,一些新興企業(yè)也正在進入市場,推動技術(shù)創(chuàng)新和產(chǎn)品多樣化。
除了芯片代工環(huán)節(jié)以外,芯片載板、覆銅板(CCL)、印制電路板(PCB)、計算板卡、NVLink交換板以及服務(wù)器機架等關(guān)鍵部件的性能需求均不斷提高,帶動了供應(yīng)鏈整體價值量的顯著提升。例如,英偉達的下一代GB300 GPU引入了GPU插槽設(shè)計,替代了傳統(tǒng)的直接表面貼裝方式。這種新設(shè)計對PCB的制造工藝提出了更高的要求,采用三片式高難度PCB組合技術(shù)。與此同時,新產(chǎn)品的推出還進一步提升了芯片載板的面積需求,并提高了產(chǎn)品整體的傳輸性能和功耗效率。
例如,摩根士丹利預(yù)計富士康在英偉達最新GB200服務(wù)器市場中份額第一,達到了54%。此外,富士康還獲得了NVLink交換板獨家代工訂單。與此同時,中國廠商也逐步進入高價值供應(yīng)鏈環(huán)節(jié)。例如,勝宏科技為高性能PCB供應(yīng)商,麥格米特負責(zé)服務(wù)器電源模塊供應(yīng),鉑科新材則為芯片電感主要供應(yīng)商。
根據(jù)摩根大通估計,這兩家公司合計占據(jù)超過60%的市場份額,其中博通以55%-60%的份額穩(wěn)居第一,美滿電子則以13%-15%的份額緊隨其后。博通的主要客戶包括谷歌、Meta和字節(jié)跳動。谷歌每年為TPU芯片支付的費用持續(xù)增長,從2023年的35億美元預(yù)計提升至2024年的70億美元。此外,博通與Meta在AI基礎(chǔ)設(shè)施方面的合作也為其帶來可觀的收入,摩根大通預(yù)計該合作在未來兩年內(nèi)可能貢獻數(shù)十億美元的收入。
美滿電子的AI ASIC業(yè)務(wù)也在快速增長。摩根大通預(yù)測,美滿電子的AI ASIC收入將在2025年達到28億至30億美元,到2028年進一步增長至70億至80億美元。這種增長主要得益于其在高性能計算、數(shù)據(jù)中心和云計算市場中的深耕布局。
為了保持在AIGC領(lǐng)域的全球領(lǐng)先優(yōu)勢,美國政府不斷加強對AI芯片的出口管制措施。
2022年8月,美國政府對向中國銷售一些高端計算機芯片實施了新的限制,主要涉及英偉達、AMD等公司的高端GPU產(chǎn)品,例如英偉達的A100和AMD的MI250等,要求企業(yè)在出口相關(guān)產(chǎn)品時必須申請出口許可證。2023年10月起,英偉達被禁止向中國出口A100、A800、H100、H800等GPU產(chǎn)品。同年11月,美國政府進一步要求,若英偉達等公司向中國供應(yīng)具有一定“處理密度”的高性能處理器,則必須向美國商務(wù)部工業(yè)與安全局申請出口許可證。2025年1月,拜登政府發(fā)布《人工智能擴散框架》,設(shè)立三級出口限制許可體系,限制全球范圍內(nèi)對AI芯片的獲取。
中國企業(yè)正在加大對GPU設(shè)計和高端芯片制造工藝的資金與人力投入,同時在半導(dǎo)體材料、設(shè)備等上游環(huán)節(jié)努力實現(xiàn)自給自足,減少對國外技術(shù)和設(shè)備的依賴。2024年5月,國家大基金三期正式注冊成立,注冊資本達到3440億元人民幣,重點支持先進集成電路制造、AI芯片等關(guān)鍵領(lǐng)域,以促進國內(nèi)AIGC產(chǎn)業(yè)的健康發(fā)展。中芯國際作為中國最大的芯片代工廠商,已經(jīng)具備7nm制程的量產(chǎn)能力,但由于美國禁令的影響,中芯國際只能使用深紫外光(DUV)光刻機,無法獲得更為先進的極紫外光(EUV)光刻機。這一制約導(dǎo)致在推進5nm甚至3nm制程時,光罩數(shù)量增加、成本上升,且良率難以保證,進而限制了其在AI芯片更先進制程研發(fā)和量產(chǎn)方面的進展。
盡管國產(chǎn)GPU與英偉達GPU在性能上仍存在明顯差距,但隨著英偉達產(chǎn)品的禁運,部分國內(nèi)廠商正在加速搶占市場份額。
目前,主要的國產(chǎn)GPU和AI ASIC廠商包括華為、壁仞科技、寒武紀、天數(shù)智芯、燧原科技、沐曦、摩爾線程、登臨科技等。華為的昇騰系列已在AI算力市場中形成較強競爭力,成為國產(chǎn)AI算力市場的領(lǐng)軍者。國內(nèi)廠商的芯片制造仍依賴臺積電和中芯國際,但隨著國內(nèi)芯片制造工藝的逐步進步,能夠滿足部分高端芯片的量產(chǎn)需求。
國內(nèi)廠商還加大了與國外廠商在AI ASIC領(lǐng)域的合作,試圖突破英偉達GPU市場的壟斷。
據(jù)悉,字節(jié)跳動正在與博通合作開發(fā)自有的ASIC和DPU芯片,逐步構(gòu)建強大的AI算力基礎(chǔ)設(shè)施,以支持公司快速增長的大模型訓(xùn)練和推理需求。目前,這款芯片符合美國的出口限制,且制造工作計劃由臺積電代工。博通是AI ASIC芯片領(lǐng)域的頭部玩家,與谷歌、Meta等公司有廣泛合作,具備強大的定制化設(shè)計能力、高性能互聯(lián)技術(shù)以及卓越的供應(yīng)鏈整合能力。國內(nèi)廠商與此類國外企業(yè)的合作,不僅能夠借助其成熟的技術(shù)和經(jīng)驗,還能加速國內(nèi)AI芯片的研發(fā)進程及產(chǎn)品落地。
注意:未經(jīng)招商銀行事先授權(quán),任何人不得以任何目的復(fù)制、發(fā)送或銷售本報告。