7月底的上海,疲勞與抓狂并存。疲憊在于一場(chǎng)聲勢(shì)浩大的國(guó)際性盛會(huì)剛在這里落幕。這是WAIC(世界人工智能大會(huì))舉辦以來(lái)規(guī)模最大的一次,不僅參展商數(shù)量暴漲了60%。連從未現(xiàn)身中國(guó)的AI教父辛頓也驚喜閃現(xiàn),會(huì)場(chǎng)門票直接炒到了“單日千元”。抓狂則在于,人人都想拿出看家本領(lǐng),試圖復(fù)刻下一個(gè)“炸裂”時(shí)刻。

參展到半程,有大模型企業(yè)半夜還在調(diào)試模型參數(shù),“深夜突然決定發(fā)布,第二天全班人馬拉足火力”,有現(xiàn)場(chǎng)的參展企業(yè)向鳳凰網(wǎng)科技透露,和往年不同,今年WAIC吸引了不少外國(guó)的觀眾,其中包括外媒這樣的專業(yè)觀眾,這是中國(guó)大模型企業(yè)難得有機(jī)會(huì)最近距離復(fù)刻DeepSeek效應(yīng)的時(shí)候。

但過(guò)分追求結(jié)果的人們往往會(huì)忽略一個(gè)真相,技術(shù)可以復(fù)制,顛覆太難模仿。 想重走DeepSeek之路,一切沒(méi)那么簡(jiǎn)單。

重走DeepSeek之路
就在外界用誤讀的方式唱衰DeepSeek之際,又一個(gè)DeepSeek時(shí)刻最先從海外爆出。
7月中旬,英國(guó)《自然》雜志網(wǎng)站發(fā)表文章稱,中國(guó)人工智能(AI)模型Kimi K2發(fā)布后引發(fā)轟動(dòng),世界迎來(lái)“又一個(gè)DeepSeek時(shí)刻”。

Kimi在7月11日正式發(fā)布K2模型,其采用了一套經(jīng)過(guò)精心優(yōu)化的萬(wàn)億參數(shù)混合專家架構(gòu),總參數(shù)量達(dá)到1.04萬(wàn)億,但激活參數(shù)僅為320億。很快人們就發(fā)現(xiàn),K2采用了和DeepSeek-V3相似的架構(gòu),即多頭注意力的頭數(shù)更少,MoE的專家數(shù)更多,因此可以在提高上下文效率的同時(shí)提升token使用的效率。“Kimi K2基本上是DeepSeek V3,但擁有更少的頭腦和更多的專家。”有從業(yè)者如此表述。

架構(gòu)相似,也走開源路線。Kimi的一位內(nèi)部員工后來(lái)也很坦誠(chéng)的表示,“在啟動(dòng)K2訓(xùn)練之前,我們進(jìn)行了大量模型結(jié)構(gòu)相關(guān)的scaling實(shí)驗(yàn),結(jié)果是,所有當(dāng)時(shí)propose的、與DSv3不同的結(jié)構(gòu),沒(méi)有一個(gè)能真正打敗他的(頂多旗鼓相當(dāng))。因此,問(wèn)題就變成了,我們要不要為了與DeepSeek不同,強(qiáng)行選擇一個(gè)沒(méi)有優(yōu)勢(shì)但不一樣的結(jié)構(gòu),最終的答案是no。”。所以Kimi只做了一件創(chuàng)新,就是在同樣的架構(gòu)里,把參數(shù)拉到爆表。考慮到Kimi仍舊是一家創(chuàng)業(yè)公司,沒(méi)有無(wú)限子彈,而目前大家能看到的K2實(shí)現(xiàn)的結(jié)果,已經(jīng)是Kimi所能承受的算力上限。
盡管K2沒(méi)有到大爆的程度,但其在海外的確在短時(shí)間內(nèi)吸納了極大的關(guān)注度。7月中旬,據(jù)OpenRouter公布的數(shù)據(jù),Kimi K2調(diào)用量與馬斯克剛發(fā)布的Grok4登上增長(zhǎng)榜前兩名,日調(diào)用量超過(guò) 100 億 token,而Kimi K2的API價(jià)格僅為Claude Sonnet的五分之一。
這也就有了前文開頭的一幕,海外媒體報(bào)道,又一個(gè)DeepSeek時(shí)刻涌現(xiàn)。
緊接著在7月28日凌晨,智譜帶來(lái)了其自身迄今為止最大參數(shù)的開源模型GLM-4.5,雖然彭博在援引知情人士表述時(shí)寫的是“該公司正試圖在全球范圍內(nèi)挑戰(zhàn)OpenAI”,但一樣走開源路線,一樣希望在海外引爆的思路,實(shí)際上也是在重走DeepSeek之路。

更早之前,無(wú)論是Kimi、階躍星辰還是MiniMax,都重提堅(jiān)持基礎(chǔ)模型研發(fā)。這與梁文鋒追求AGI的理念如出一轍。

下一個(gè)o1也很重要
AI行業(yè)從業(yè)者“AI Dance”形容當(dāng)前的AI發(fā)展是“草灰蛇線,伏脈千里”,“如OpenAI在探索出RL(強(qiáng)化學(xué)習(xí))范式后(指發(fā)布o(jì)1),又被DeepSeek R1揭示秘密,所有從業(yè)者一擁而上”。而如今的coding Agent(編碼智能體)與大參數(shù)的MoE模型,則全部在DeepSeek-V3的架構(gòu)之上,可以說(shuō),當(dāng)前這一輪風(fēng)潮皆是因?yàn)镈eepSeek。
正如另一位Kimi員工所言,“K2還是先狠狠地致敬DeepSeek了,而不是刻意標(biāo)新立異,更多的想法和創(chuàng)意,我們把它們做得更扎實(shí)之后,在K3、K4再見了。”

然而下一個(gè)引領(lǐng)浪潮的人是誰(shuí)?當(dāng)前仍未有答案。或許甚至連DeepSeek與梁文鋒,都在等待下一個(gè)強(qiáng)如o1的對(duì)手。
此前有消息稱,GPT-5將于2025年8月發(fā)布。作為GPT-4的迭代升級(jí),這不僅是簡(jiǎn)單的版本更新,更是一次全方位的技術(shù)躍遷,將從推理能力、多模態(tài)交互、智能代理到開放生態(tài)等多個(gè)維度重新定義AI的可能性。
目前,OpenAI的GPT系列與o3推理引擎處于分立狀態(tài),用戶需根據(jù)不同任務(wù)手動(dòng)切換模型。而GPT-5將徹底打破這一界限,首次實(shí)現(xiàn)語(yǔ)言生成、邏輯推理、數(shù)學(xué)計(jì)算、多步規(guī)劃等功能的深度融合,構(gòu)建真正的“統(tǒng)一智能”系統(tǒng)。
GPT-5無(wú)需手動(dòng)切換模式,能智能判斷任務(wù)需求,在需要深度推理的復(fù)雜場(chǎng)景(如代碼調(diào)試、數(shù)學(xué)證明、商業(yè)決策)與快速響應(yīng)的簡(jiǎn)單場(chǎng)景間自動(dòng)切換。在復(fù)雜任務(wù)處理上表現(xiàn)應(yīng)該會(huì)有很大一部分提升,尤其在代碼優(yōu)化、數(shù)學(xué)推導(dǎo)、戰(zhàn)略決策等領(lǐng)域。
OpenAI CEO山姆·奧特曼則在X上透露:“早上,我正在測(cè)試我們最新的大模型,輸入了一個(gè)我自己都不太理解的問(wèn)題,它卻給出了完美的回答。’”

外部用戶也陸續(xù)捕捉到GPT-5的早期跡象。網(wǎng)友Yacine在社交平臺(tái)表示,自己剛試用了一款A(yù)I公司的大模型,體驗(yàn)“震撼到難以置信”,并斷言“沒(méi)有人能預(yù)料即將到來(lái)的風(fēng)暴”。

更有用戶反饋,在使用OpenAI模型時(shí)被“灰度”到一個(gè)全新AI:無(wú)需提示,該模型可連續(xù)思考3分鐘,并同步進(jìn)行大量搜索操作。當(dāng)用戶選擇“4o”模型時(shí),ChatGPT直接進(jìn)入思考狀態(tài),這一現(xiàn)象引發(fā)猜測(cè)——OpenAI是否已在悄然過(guò)渡至GPT-5?
GPT-5的發(fā)布,會(huì)不會(huì)成為下一輪國(guó)產(chǎn)模型的引爆點(diǎn)也尚未得知。回想o1發(fā)布之際,全球陷入算力內(nèi)卷,DeepSeek以算法革命對(duì)沖硬件依賴。許多大模型在預(yù)訓(xùn)練階段幾乎都選擇了不計(jì)成本地投入,而DeepSeek選擇劍走偏鋒,把重點(diǎn)放在了上崗之后的強(qiáng)化學(xué)習(xí)。用反復(fù)高強(qiáng)度地訓(xùn)練,倒逼自身不斷地調(diào)整姿勢(shì),理解邏輯,自我反思,直到結(jié)果令人滿意。

DeepSeek改變了什么?
在正式發(fā)布R1之前,DeepSeek一直在圈內(nèi)有著不錯(cuò)的口碑,“業(yè)內(nèi)很早之前就比較看好DeepSeek,甚至最早的價(jià)格戰(zhàn)就起源于DeepSeek”,一位算法工程師告訴鳳凰網(wǎng)科技。但在大眾層面上,DeepSeek一直沒(méi)有感知。因?yàn)闆](méi)有融資需求,DeepSeek也鮮少對(duì)接投資機(jī)構(gòu),甚至沒(méi)有設(shè)置專門的公共溝通部門。
到今天,梁文鋒依舊幾乎不在公開場(chǎng)合露面。只存在于一些CEO的講述中,比如rokid創(chuàng)始人祝銘明會(huì)在不經(jīng)意間提起梁文鋒在他家聚餐,羅永浩也在近期的一次公開活動(dòng)中談到其在今年春節(jié)前與梁文鋒的會(huì)面,“我們?cè)诰频甏筇靡娒鏁r(shí),他從遠(yuǎn)處走來(lái),就像一個(gè)在讀學(xué)生。或許因?yàn)槟昙o(jì)稍長(zhǎng),感覺(jué)像個(gè)碩士或博士。”

DeepSeek也在不經(jīng)意間影響了很多同行。
比如讓曾經(jīng)堅(jiān)定的閉源派,如百度等企業(yè),走上了開源之路,正式開啟了開源模型的中國(guó)時(shí)間。
相比于過(guò)去希望成為“中國(guó)版OpenAI”,越來(lái)越多人想做下一個(gè)DeepSeek,鳳凰網(wǎng)科技早先了解到,Kimi已徹底轉(zhuǎn)向“研究為重”的內(nèi)部氛圍,楊植麟已幾乎不參與公開活動(dòng)。階躍星辰在多模態(tài)技術(shù)上有著全球頂尖的人才儲(chǔ)備,也正信心滿滿的押注下一個(gè)范式。
字節(jié)的大模型研究團(tuán)隊(duì)目前也在重點(diǎn)攻克技術(shù),甚至張一鳴本人頻繁往返于北京和新加坡,和不同的技術(shù)從業(yè)人士交流。