全村人都在等著DeepSeek上桌吃飯了

2026-03-06 10:21:48　來源: 互聯(lián)網(wǎng)怪盜團丶

甘肅舉報

分享至

上個周末，包括英國《金融時報》在內(nèi)的一些外媒報道稱：DeepSeek V4將在本周一（3月2日）發(fā)布。還有報道宣稱，V4將針對國產(chǎn)芯片進行優(yōu)化，是該系列大模型當中第一個完全基于國產(chǎn)算力生態(tài)的云云。這一消息很快被大量國內(nèi)媒體轉(zhuǎn)載，大家都期待著V4早日露出真容——可是什么都沒有發(fā)生。

大家盼望DeepSeek V4發(fā)布，已經(jīng)有一個多月了。之前很多人預(yù)測它將于春節(jié)期間發(fā)布，不過也有消息稱，春節(jié)還太早了一點。其實，春節(jié)期間，豆包、千問、GLM……等競爭對手爭先恐后地發(fā)布新版本，在一定程度上可以視為對DeepSeek的一種“預(yù)防性競爭行為”：只要V4發(fā)布，其光芒就會過于強大，遮蓋一切競品；所以競品必須趕緊也拿出高水平的新版本才行。

春節(jié)前不久，DeepSeek做了一次更新，擴大了上下文窗口，并一度被誤傳為“V4已經(jīng)開始灰度測試”。那段時間，我的朋友圈到處有人在問：“你被V4灰度到了嗎？怎么拿邀請碼？”事實證明那次更新并不是V4，雖然被廣泛稱為"V4Lite"，但畢竟不是正式版V4；它的跑分處于國產(chǎn)大模型的第一梯隊，但更新尚未達到讓人眼睛一亮的程度。

我在AI圈的朋友，普遍對DeepSeek V4仍然抱有很大希望，其原因有二：

從梁文鋒署名的一系列論文看，DeepSeek團隊在基礎(chǔ)研發(fā)方面是有想法的，正在力圖進行創(chuàng)新，其站位高于大部分大模型創(chuàng)業(yè)團隊；

今年1月底，梁文鋒曾頗有自信地預(yù)告過不久后的新版本，“根據(jù)他的性格，沒有把握的事情是不會事先宣傳的”。

從DeepSeek團隊發(fā)表的論文看，最近一段時間它的研發(fā)似乎聚焦于兩個方向：一個是編程，一個是多模態(tài)。前者非常自然，因為AI編程是發(fā)展最快、成熟度最高的大模型應(yīng)用，今年以來發(fā)布的Claude Code with Opus 4.6以及ChatGPT-5.3-Codex再次刷新了AI編程的上限。這是一條已經(jīng)被證實的坦途，DeepSeek的前幾個小版本在這方面進步也很大，V4再次取得巨大進展是可以理解的。

后者則是在補齊軟肋——DeepSeek迄今最大的弱點就是沒有多模態(tài)功能，這一點不但限制了它的C端應(yīng)用，而且限制了它的B端應(yīng)用。因為B端收入的來源是客戶對Token的消耗，多模態(tài)的Token消耗比傳統(tǒng)的文本生成高了一個、甚至好幾個數(shù)量級。不久前Seedance 2.0的發(fā)布，再次證明了優(yōu)秀的多模態(tài)大模型具備多高的用戶基礎(chǔ)和商業(yè)潛力。從已發(fā)表的論文看，DeepSeek肯定不滿足做一個“文生文”大模型，已經(jīng)在多模態(tài)方面下了不少工夫。

現(xiàn)在全村人都在等著DeepSeek V4上桌吃飯了，究竟什么時候才能真正開飯呢？我認為，這里有一個非常重要的因素：V3/R1是當時全世界最出色的開源大模型，尤其在推理成本控制方面取得了巨大進展，所以震驚了世界；此時此刻，V4必須也成為全世界最出色的開源大模型（至少是之一），才能再次震驚世界。這是成功者必須面臨的問題：成功的標桿越抬越高，每一次的挑戰(zhàn)都更大。

還有一個重要因素：當初震驚世界的主要是R1，也就是深度推理大模型。如果沒有深度推理功能，至少對于一般用戶而言，DeepSeek不會顯得那么特殊。假設(shè)DeepSeek先推出“普通版本”的V4，過一段時間再推出“深度推理”的R2，市場是否會覺得解渴？當然，有一種更穩(wěn)妥的方式，就是同時推出V4和R2，不過這需要更多的資源，對于一家仍處于創(chuàng)業(yè)級別的公司而言，未必合適。我相信，在決定新版本大模型上線節(jié)奏的時候，DeepSeek團隊肯定考慮到了上述全部因素。

還有一個問題：大模型開發(fā)，比拼的既是基礎(chǔ)研發(fā)，也是工程執(zhí)行。我們目前能看到的公開信息，主要是基礎(chǔ)研發(fā)層面的，例如DeepSeek團隊發(fā)布的學(xué)術(shù)論文；我們對于背后的工程課題、工程瓶頸，知之甚少。迄今為止，關(guān)于DeepSeek新版本訓(xùn)練過程的一切媒體報道，其實都是捕風捉影，沒有得到官方的任何承認，也缺乏第三方信源參考。舉個例子：谷歌在大模型基礎(chǔ)研發(fā)方面一直保持領(lǐng)先，但是在Bard以及Gemini早期，工程執(zhí)行方面犯下了很多錯誤，直到2024年下半年才趕上來。如果DeepSeek過去一段時間致力于解決一些工程環(huán)節(jié)的細節(jié)問題，我不會感到奇怪。

假設(shè)DeepSeek V4真的像英國《金融時報》報道的那樣，全面擁抱國產(chǎn)算力體系的話，在工程方面的挑戰(zhàn)就更大了。要知道，哪怕同樣是在英偉達框架之內(nèi)，硅谷大廠把訓(xùn)練任務(wù)從Hopper架構(gòu)轉(zhuǎn)向Blackwell架構(gòu)，也需要花一段時間；何況是在兩個完全不同的框架之間調(diào)整？這樣的工程問題注定難以在短期內(nèi)得到解決，能解決就不錯了，無法強求。

但是，需要強調(diào)的是：目前關(guān)于V4訓(xùn)練細節(jié)的報道，無論來自外媒還是國內(nèi)媒體，基本都是根據(jù)間接渠道的猜測、整合，從未得到官方的任何認可。真正的訓(xùn)練細節(jié)，只有在新版本發(fā)布的那一刻才會被外界得知，而且也不可能是全部細節(jié)。只能說：一切皆有可能，但不是每種可能性都值得現(xiàn)在就討論。

話說回來，哪怕在長達一年多沒有大版本更新（中間有2-3次小版本更新）的情況下，而且是在極少做市場活動的情況下，DeepSeek APP的MAU仍然超過1億，在國內(nèi)AI應(yīng)用中位居第四或第五名，哪怕是在春節(jié)期間砸了重金的元寶也無法超過它（這在一定程度上要感謝V4Lite的更新）。假如現(xiàn)在推出V4，那么DeepSeek仍然有希望一波沖到全國AI前三的水平；假如再晚一些，就不好說了，因為互聯(lián)網(wǎng)大廠圍繞AI的軍備競賽愈演愈烈，DeepSeek在今年面對的競爭密度遠高于去年，國內(nèi)如此，國外也是如此。

不管怎么說，既然市場上頻繁傳出“DeepSeek V4即將發(fā)布”的消息，至少說明新版本發(fā)布已經(jīng)不再遙遠了。我非常希望能盡快看到V4，因為迄今為止，DeepSeek仍是我使用頻率最高的四個大模型之一（另外三個是GPT、Gemini、Grok），也是我使用頻率最高的國產(chǎn)大模型。我一定會在發(fā)布之日立即嘗試，并且詢問AI圈的朋友的使用體驗。希望我們都不會失望！

本文沒有得到DeepSeek或其任何競爭對手的資助或背書。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.