美國朝DeepSeek打了一記重拳斯坦福團(tuán)隊(duì)花146元復(fù)現(xiàn)AI模型|鈦媒體AGI

  

美國朝DeepSeek打了一記重拳斯坦福團(tuán)隊(duì)花146元復(fù)現(xiàn)AI模型|鈦媒體AGI(圖1)

  圍繞中國開源 AI 公司深度求索(DeepSeek)熱潮不斷加劇,已成為全民熱議的話題,同時(shí)也掀起一股新的AI熱潮。而當(dāng)前,美國企業(yè)界、學(xué)術(shù)界、政府機(jī)構(gòu)紛紛開啟“反擊”熱潮。

  首先是美國企業(yè)層面,鈦媒體AGI獲悉,2月7日凌晨,美國OpenAI公司宣布對o3-mini和o3-mini high模型進(jìn)行更新,為免費(fèi)和付費(fèi)用戶增強(qiáng)推理步驟的透明度,同時(shí)為GPT服務(wù)增加內(nèi)存,以及公開o3-mini推理思維鏈。

  其次是學(xué)術(shù)界,近期一份模型研究論文引發(fā)關(guān)注。美國斯坦福大學(xué)教授李飛飛等AI研究人員,僅花費(fèi)不到50美元(約合人民幣364.61元)云計(jì)算資源,以阿里通義Qwen2.5-32B-Instruct為基礎(chǔ)模型,通過SFT監(jiān)督微調(diào)方式,最終訓(xùn)練出開源AI“推理”模型s1,在數(shù)學(xué)和編碼能力測試中與OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。該論文作者表示,訓(xùn)練s1所需的租用計(jì)算成本最終僅大約在20美元(約合146元)。

  最后是立法機(jī)構(gòu)。據(jù)報(bào)道,美國眾議員拉胡德(R-Ill.)和戈特海默(D-N.J.)以數(shù)據(jù)安全為由,這兩天將在美國國會(huì)出臺(tái)一項(xiàng)針對DeepSeek的法案,禁止在聯(lián)邦政府的設(shè)備上使用該產(chǎn)品。更早之前,美國參議員Josh Hawley就發(fā)布《美國AI能力與中國脫鉤》法案,稱任何下載或使用DeepSeek的行為將被定性為犯罪,最高可判處20年監(jiān)禁。

  很顯然,隨著DeepSeek用戶量超過Gemini、日活躍用戶超過ChatGPT,從美國民間到國會(huì)機(jī)構(gòu),從學(xué)術(shù)界到產(chǎn)業(yè)界,都在尋找對抗DeepSeek解決方案。同時(shí),意大利、澳大利亞、韓國等國家相繼出臺(tái)政策,對DeepSeek進(jìn)行限制和封殺。

  國內(nèi)AI行業(yè)人士李丹(化名)2月6日對鈦媒體AGI表示,DeepSeek的成功至少證明現(xiàn)階段美國無法通過限制芯片出口卡死中國AI發(fā)展,通過開源技術(shù)和有限的算力仍能追上,但長期來看,算力和數(shù)據(jù)限制下,未來中國AI創(chuàng)新技術(shù)依然“無法超越”美國技術(shù),中國需要在商業(yè)化應(yīng)用層面做更多的工作。

  中國常駐聯(lián)合國代表傅聰表示:“永遠(yuǎn)不要低估中國科研人員的聰明才智。DeepSeek引發(fā)全球轟動(dòng)和一些人的焦慮恐慌,說明技術(shù)遏制和技術(shù)限制無法奏效,這是全世界、特別是美國需要學(xué)習(xí)的一課。”

  在國內(nèi),短短六天內(nèi),騰訊云、阿里云、華為云、百度智能云、火山引擎等數(shù)十家云計(jì)算服務(wù)龍頭,華為昇騰、沐曦、摩爾線多家國產(chǎn)AI芯片企業(yè),國內(nèi)三大運(yùn)營商移動(dòng)、聯(lián)通、電信相繼宣布適配、上架或接入DeepSeek模型服務(wù)。

  然而,這種全民使用造成了DeepSeek平臺(tái)服務(wù)器算力不足問題。2月6日,DeepSeek證實(shí)已暫停API服務(wù)充值,“當(dāng)前服務(wù)器資源緊張,為避免對您造成業(yè)務(wù)影響,我們已暫停API服務(wù)充值。存量充值金額可繼續(xù)調(diào)用,敬請諒解!”

  同日晚間,DeepSeek發(fā)文強(qiáng)調(diào):近期注意到部分與 DeepSeek 有關(guān)的仿冒賬號和不實(shí)信息對公眾造成了誤導(dǎo)和困擾?!澳壳俺?DeepSeek 官方用戶交流微信群外,我們從未在國內(nèi)其他平臺(tái)設(shè)立任何群組,一切聲稱與 DeepSeek 官方群組有關(guān)的收費(fèi)行為均系假冒,請大家仔細(xì)辨別,避免財(cái)產(chǎn)損失。感謝大家一如既往的支持與關(guān)心,我們將再接再厲研發(fā)更加創(chuàng)新、專業(yè)、高效的模型,并持續(xù)與開源社區(qū)分享?!?

  相較于國內(nèi)欣欣向榮,美國則開始復(fù)現(xiàn)模型,呈現(xiàn)成本更低的AI創(chuàng)新發(fā)展模式。

  2月初,華裔科學(xué)家李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的云計(jì)算費(fèi)用,僅僅用了 1000 個(gè)樣本,用了 16 塊 H100,在 26 分鐘就訓(xùn)練完成了可以匹敵 o1-preview、DeepSeek R1的開源 AI 推理模型s1,具有320億規(guī)模參數(shù)。

  根據(jù)論文,這個(gè)模型以阿里通義團(tuán)隊(duì)的Qwen2.5- 32B-Instruct作為基礎(chǔ)模型,通過蒸餾、SFT等多個(gè)技術(shù)方式谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實(shí)驗(yàn)版,最終得到了s1模型,而其在數(shù)學(xué)和編碼能力測試中的表現(xiàn)確實(shí)不俗。s1模型作者之一表示,訓(xùn)練s1所需的計(jì)算資源,在當(dāng)下使用約合146元就能租到。

  鈦媒體AGI根據(jù)論文分析,需要特別分享三個(gè)新的技術(shù)點(diǎn):蒸餾、SFT和測試時(shí)干預(yù) (Test-time intervention)。

  所謂蒸餾模型,是一種通過模型數(shù)據(jù)蒸餾技術(shù)得到的模型,核心原理是將大型復(fù)雜的教師模型知識(shí)傳遞給小型簡單的學(xué)生模型,涉及溫度參數(shù)調(diào)整輸出概率分布及多種損失函數(shù)來實(shí)現(xiàn)知識(shí)遷移,有知識(shí)、特征、關(guān)系蒸餾等方法,以及離線、在線、自蒸餾等策略,廣泛應(yīng)用于移動(dòng)端部署、實(shí)時(shí)推理、邊緣計(jì)算等場景,能在減少模型計(jì)算成本和存儲(chǔ)需求的同時(shí)保持較好性能,包括DeepSeek R1、s1等模型都采用了“蒸餾”策略。

  在硅谷投資人王維嘉博士看來,“蒸餾”技術(shù)就是“用大模型教小模型”,實(shí)際上是把某一方向的垂直知識(shí)從大模型里提煉出來,放到一個(gè)小模型里面,這樣就不用從頭訓(xùn)練小模型?!熬拖裉K格拉底、亞里士多德全、達(dá)芬奇可以培養(yǎng)出一個(gè)數(shù)學(xué)老師,一個(gè)物理老師,一個(gè)化學(xué)老師,這就是蒸餾。說蒸餾一般人不是特別理解,你說師傅帶徒弟就全明白了。”

  根據(jù)論文,在s1模型當(dāng)中,研究人員從 16 個(gè)不同來源收集59,029個(gè)問題,包括NuminaMATH、MATH、OlympicArena(全是數(shù)學(xué))以及一些原創(chuàng)數(shù)據(jù)集,隨即去重、去污染處理,最終減少到51581個(gè)樣本,以及高質(zhì)量的384個(gè)樣本,且使用阿里通義的Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 兩個(gè)模型來評估每個(gè)問題的難度。

  因此,最終s1數(shù)據(jù)集包含各種數(shù)學(xué)和其他科學(xué)領(lǐng)域的難題,并具有高質(zhì)量的推理軌跡(抽數(shù)、蒸餾),數(shù)據(jù)集進(jìn)一步減少到24496個(gè)樣本,實(shí)現(xiàn)模型訓(xùn)練、推理。

  而SFT,即監(jiān)督微調(diào)技術(shù),是機(jī)器學(xué)習(xí)領(lǐng)域的常用技術(shù),先在大規(guī)模無監(jiān)督數(shù)據(jù)集上對基礎(chǔ)模型預(yù)訓(xùn)練,讓其掌握數(shù)據(jù)基本結(jié)構(gòu)和知識(shí),接著收集特定任務(wù)的標(biāo)注數(shù)據(jù)集,將預(yù)訓(xùn)練模型在標(biāo)注數(shù)據(jù)上進(jìn)一步訓(xùn)練,通過計(jì)算預(yù)測結(jié)果與正確標(biāo)注間的損失值,用優(yōu)化算法調(diào)整模型參數(shù),讓模型在特定任務(wù)上的預(yù)測更精準(zhǔn)。該技術(shù)在自然語言處理的文本分類、對話系統(tǒng),以及圖像處理、推薦系統(tǒng)等領(lǐng)域都有廣泛應(yīng)用。

  s1模型論文上,研究人員大量使用監(jiān)督微調(diào)技術(shù),用篩選出的樣本與阿里通義模型進(jìn)行評估和反饋,利用SFT讓s1模型達(dá)到一個(gè)比較好的目標(biāo)。

  通過各種方法對模型的輸出或決策過程進(jìn)行調(diào)整、優(yōu)化或影響,“測試時(shí)干預(yù)”可以改善模型在測試時(shí)的性能表現(xiàn)、提高預(yù)測準(zhǔn)確性、增強(qiáng)模型的穩(wěn)定性或可解釋性等,這些方法可能包括對輸入數(shù)據(jù)進(jìn)行特定的預(yù)處理、bwin必贏官方授權(quán)平臺(tái)引入額外的信息或約束、調(diào)整模型的參數(shù)或超參數(shù)、應(yīng)用特定的后處理策略等。在s1模型當(dāng)中,測試時(shí)干預(yù)主要通過 “預(yù)算強(qiáng)制 (Budget forcing)” 和 “拒絕采樣 (Rejection sampling)” 兩種方法來實(shí)現(xiàn),最終讓s1模型擁有更好的思維鏈(CoT)能力,以及能夠更好地控制推理行為,提高問題解決能力。

  所以,正如論文所講,s1模型的作用在于,具有強(qiáng)大推理能力的語言模型有可能極大地提高人類的生產(chǎn)力,實(shí)現(xiàn)從協(xié)助復(fù)雜的決策到推動(dòng)科學(xué)突破。然而,推理領(lǐng)域的最新進(jìn)展,例如 OpenAI 的 o1,缺乏全面的透明度,限制了更廣泛研究進(jìn)展。因此,我們需要以完全開放的方式推動(dòng)推理領(lǐng)域的發(fā)展,促進(jìn)創(chuàng)新和協(xié)作,以加速最終造福社會(huì)的進(jìn)步。

  不過,s1模型局限性也不容忽視,其基于阿里通義模型進(jìn)行“蒸餾”,無法保證模型可控,而且1000高質(zhì)量的樣本無法滿足解決復(fù)雜問題能力。所以,如何保證模型性能提升,同時(shí)降低訓(xùn)練成本,這是AI 技術(shù)研究的一個(gè)重要課題。未來,隨著技術(shù)的進(jìn)步和算法的優(yōu)化,或許我們真的能夠看到更多低成本、高性能的AI模型問世。

  2月7日,韓國兩大能源國企宣布禁止使用DeepSeek,韓國代理總統(tǒng)崔相穆將DeepSeek稱之為“新的沖擊”,并直接公布34萬億韓元(約合1710億元人民幣)新基金用于支持AI和半導(dǎo)體技術(shù)發(fā)展。

  他提出,韓國的目標(biāo)是成為世界三大AI領(lǐng)先國家之一。不過韓媒認(rèn)為,韓國僅擁有2000多張GPU顯卡,算力資源嚴(yán)重不足。

  更早之前的2月4日,澳大利亞、愛爾蘭、法國、意大利都宣布全面限制使用DeepSeek AI服務(wù)。此外,從美國國會(huì)、五角大樓、NASA到海軍,都考慮或已開始禁止使用DeepSeek,得克薩斯州則成為美國第一個(gè)禁止在政府設(shè)備上使用DeepSeek的州。

  白宮新聞發(fā)言人卡洛琳萊維特(Karoline Leavitt)表示,美國目前正在研究可能的安全影響。

  2月7日凌晨,美國眾議員、伊利諾伊州共和黨眾議員達(dá)林拉胡德 (Darin LaHood)和新澤西州民主黨眾議員喬希戈特海默 (Josh Gottheimer),以所有安全為由提出一項(xiàng)法案,稱DeepSeek公司的技術(shù)存在風(fēng)險(xiǎn),“與中國的技術(shù)競賽不是美國輸?shù)闷鸬?,DeepSeek對美國令人擔(dān)憂?!?

  拉胡德早前在美國參議院會(huì)議中表示,“最新DeepSeek被稱為AI 對美國的Sputnik時(shí)刻。DeepSeek幾乎證明中國正在AI上趕超美國,中國與DeepSeek的創(chuàng)新令人震驚,但與AGI的最終目標(biāo)擊敗美國相比還沒有出現(xiàn),所以我們不能允許這種情況發(fā)生。這就是為什么我將AI作為國會(huì)的重中之重的原因。美國的創(chuàng)新是我的北極星,我將繼續(xù)這樣做,我希望我們對AI的投資努力將不斷強(qiáng)大,通過立法投資更多用以發(fā)展 AI 技術(shù)?!?

  很顯然,以美國為首的國家對DeepSeek帶來的中國 AI 創(chuàng)新熱潮進(jìn)行質(zhì)疑和考驗(yàn)。但與此同時(shí),Meta、谷歌等美國科技巨頭不斷進(jìn)行更大規(guī)模的 AI 投資正面臨華爾街的“拷問”。

  截至目前,Meta、微軟、谷歌、亞馬遜四大科技巨頭已經(jīng)宣布,2025年將總計(jì)投入超過3200億美元,用于發(fā)展 AI 技術(shù)。

  其中,Meta計(jì)劃2025年資本投入600億-650億美元,比2024年提高約40%,用以 AI 技術(shù)投入;微軟計(jì)劃投入800億美元用于AI基礎(chǔ)設(shè)施;谷歌預(yù)計(jì)2025年將在資本支出方面投入750億美元,較去年激增逾42.7%;亞馬遜投資1000億美元,公司CFO表示支出主要包括 AI 服務(wù)需求以及AWS云服務(wù)業(yè)務(wù)設(shè)施等。

  然而,F(xiàn)uturum Group 分析師丹尼爾紐曼認(rèn)為:“考慮到這些巨額開支,他們(美股科技巨頭們)急需提高AI的收入回報(bào),但目前發(fā)生的事情(DeepSeek)對美國來說是一個(gè)警鐘……就目前而言,AI 的資本支出實(shí)在太多,但消費(fèi)卻不足?!?

  數(shù)據(jù)顯示,DeepSeek-V3這個(gè)參數(shù)量高達(dá)671B的大模型,在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個(gè)月,且只花費(fèi)557.6萬美元,最終性能卻超越OpenAI-o1等模型。

  Direxion資本市場主管Jake Behan認(rèn)為,現(xiàn)在的問題不在于 AI 支出何時(shí)能夠盈利,而在于它是否能夠合理化。

  “我們不認(rèn)為所有公司都會(huì)立即轉(zhuǎn)向DeepSeek,但DeepSeek發(fā)布的低成本、低資源消耗的AI模型表明,AI在未來將變得更加商品化。真正的差異化在于支持更高準(zhǔn)確性、安全性和滿足特定需求定制化的平臺(tái)功能,這也是微軟需要投資的方向?!盫aloir分析師 Rebecca Wettemann表示。

  不過,另一方面也有分析認(rèn)為,DeepSeek依然證明算力需求旺盛,AI 需要大量基礎(chǔ)設(shè)施的投入,以滿足市場需求。

  2月1日,橋水聯(lián)席首席投資官(CIO)詹森(Greg Jensen)與橋水運(yùn)用AI進(jìn)行市場交易的內(nèi)部團(tuán)隊(duì)“AIA實(shí)驗(yàn)室”首席科學(xué)家Jas Sekhon發(fā)文稱,DeepSeek的成就重要且令人印象深刻,他們在極短時(shí)間內(nèi)發(fā)展出了排在全球前五的AI實(shí)驗(yàn)室。其成果僅比前沿模型落后數(shù)月,成本卻大幅降低。目前,DeepSeek已超越Meta,成為開源大語言模型(LLM)中的領(lǐng)先者。

  “需要承認(rèn)的是,600萬美元這一數(shù)字確實(shí)展現(xiàn)了顯著進(jìn)步?!痹撐膶懙?,“然而,隨著時(shí)間推移,由于AI軟件及硬件的進(jìn)步,這種效率提升是可以預(yù)見的。”

  橋水進(jìn)一步分析稱,推理效率的提高意味著人們會(huì)購買更多的推理能力 ,而當(dāng)前還未達(dá)到推理需求曲線的收益遞減點(diǎn)。例如,大量對 AI的需求并不來自直接使用大模型,而是來自生成式AI的其他用途,如機(jī)器人、自動(dòng)駕駛、芯片設(shè)計(jì)和生物學(xué)。LLM模型通常是這些更廣泛應(yīng)用的一種輸入。隨著LLM的改進(jìn),算力瓶頸轉(zhuǎn)移到其他環(huán)節(jié),對這些應(yīng)用的需求會(huì)被釋放出來。

  橋水指出,DeepSeek的成果表明,AI的發(fā)展和效率正在加速,這對整個(gè)AI生態(tài)系統(tǒng)的大部分參與者來說是個(gè)好消息,也有利于新的 AI投資。這意味著對算力的需求并未放緩,反而可能加速,像微軟和谷歌這類公司將不惜投入一切必要資源以確保自己處于領(lǐng)先地位,這些超大規(guī)模云服務(wù)提供商將受益于大模型成本下降和推理需求上升。

  Meta CEO扎克伯格表示,他仍然相信大力投資公司的人工智能基礎(chǔ)設(shè)施會(huì)成為戰(zhàn)略優(yōu)勢?!艾F(xiàn)在就對基礎(chǔ)設(shè)施和資本支出的走勢做出判斷可能還為時(shí)過早。長期來看,大力投資資本支出和基礎(chǔ)設(shè)施將成為一種戰(zhàn)略優(yōu)勢?!?

  微軟CEO納德拉(Satya Nadella)則認(rèn)為,增加AI支出將有助于緩解限制公司 AI 產(chǎn)能問題。他補(bǔ)充說,隨著 AI 變得更加高效和廣泛可用,“我們將看到需求呈指數(shù)級增長。”

  圖靈獎(jiǎng)得主、Meta AI科學(xué)家楊立昆(Yann LeCun)強(qiáng)調(diào),DeepSeek崛起后,投資者對美國科技巨頭股票的拋售,其實(shí)是源于對AI基礎(chǔ)設(shè)施投資的“重大誤解”。這些數(shù)十億美元的資金中,很大一部分都投入到了推理基礎(chǔ)設(shè)施中,而不是訓(xùn)練。數(shù)十億人運(yùn)行 AI 助手服務(wù)需要大量的計(jì)算,一旦你將視頻理解、推理、大規(guī)模內(nèi)存和其他功能納入 AI 系統(tǒng),推理成本就會(huì)增加。

  開源證券發(fā)布研報(bào)稱,DeepSeek發(fā)布并開源的推理模型Deepseek-R1,為行業(yè)發(fā)展注入全新變量。該模型在智能駕駛與智能座艙等應(yīng)用領(lǐng)域的潛在價(jià)值,DeepSeek的發(fā)布和開源有望推動(dòng)相關(guān)產(chǎn)業(yè)升級加速。

  中信建投研報(bào)表示,DeepSeek在保持模型優(yōu)異性能指標(biāo)的同時(shí)大幅降低訓(xùn)練和推理成本,同時(shí),高性能、輕量化、低成本的模型能力將顯著推動(dòng)端側(cè)AI產(chǎn)業(yè)發(fā)展。