
在 DeepSeek-R1 發布一周年之際,《新立場》注意到,DeepSeek 在 GitHub 上更新了大量 FlashMLA 代碼。在 114 個文件中,一個標有" MODEL1 "的未知大型模型標識符出現了 28 次。

該標識符與現有模型" V32 "(DeepSeek-V3.2)一起提及并明確區分。根據對代碼的上下文分析," MODEL1 "被廣泛認為代表了建立在不同架構上的新模型,而不是當前一代的次要迭代。
1 月 21 日,更多的信號浮出水面。多方消息源指出,DeepSeek 可能會在 2 月中旬農歷新年期間推出其下一代旗艦人工智能模型 DeepSeek V4,新模型伴隨針對 KV 緩存的新優化,且有望提供顯著增強的編碼能力。這意味著,DeepSeek 正試圖在算力效率與編碼能力上,再次拉高行業的"及格線"。
這種技術上的步步緊逼,讓 2023 年那個熱錢涌動的"鍍金時代"顯得尤為遙遠。
彼時,以智譜(GLM)、月之暗面(Kimi)為代表的"六小龍"正如日中天。憑借著"中國版 OpenAI "的技術敘事和先發優勢,智譜在一年內市值翻了三倍,月之暗面更是完成了 4 輪融資,以 33 億美元的估值站在了聚光燈的中心。那時的市場相信,只要遵循" Scaling Law "堆砌算力和參數,就能跑出下一個巨頭。
2025 年 1 月 20 日,DeepSeek-R1 的發布成為了一道分水嶺。其以一種極其極客、甚至有些"反商業"的姿態——開源、低成本、高性能,瞬間抹平了"六小龍"積攢了兩年的先發壁壘。不僅大廠感到錯愕,創業公司的護城河也一夜干涸。
DeepSeek 僅用了半年時間,就用極致的擴展效率擊穿了行業虛高的估值泡沫。對于創業者而言,通用的路被堵死了,資本的耐心也隨之耗盡。
但巨鯨沒有胃口吞下所有浮游生物。其轉身給應用層留下了最后一口氧氣。
隨著下半年 DeepSeek 進入"刻意"的低調期,以及大廠生態競爭的白熱化,處于夾縫中的"六小龍"反而在絕境中找到了一種 "Product-Market Fit by Default"(被迫的市場匹配),即放棄對"全知全能"通用大模型的執念,轉而將 Context 極度聚焦,深耕特色垂直場景。
如今,AI 行業從"百模大戰"進入了"階級固化"階段。DeepSeek 負責定義智能的上限,不斷拓展技術的邊界;而"六小龍"們則退守垂類,負責填充商業的下限,在具體的業務流中尋找生存的縫隙。
海嘯過后的幸存者名單
2024 年前 8 個月,全球 AIGC 領域發生了 107 起融資事件,國內大模型賽道更是吸金無數,億元級別的融資案高達 20 起。零一萬物、百川智能、智譜 AI、階躍星辰、月之暗面與 MiniMax,這些名字開始頻繁出現在科技媒體的頭條,被合并稱作" AI 六小龍"。來自國際戰投與東南亞財團的資金,似乎在印證著這個賽道不可限量的未來。
而在那場資本狂歡中,月之暗面無疑是最耀眼的明星。
不同于"國家隊"智譜在 B 端的穩扎穩打,楊植麟堅定地押注了 To C 賽道,試圖用"技術 + 產品"的雙輪驅動復刻移動互聯網的奇跡。紅杉、小紅書、美團、阿里等巨頭爭相入局,將這家成立不到一年半的公司推向了估值高地。2024 年 2 月,Kimi 的月活用戶數逼近 300 萬,是兩個月前的 6 倍。
QuestMobile 的數據線也畫出過一道昂揚的陽線:2024 年底,AI 原生 App 的月活規模突破 1.2 億,同比增長 232%。其中豆包、Kimi、文小言月活躍用戶規模分別為 7523 萬、2101 萬、1224 萬。那也是"燒錢換增長"邏輯依然奏效的最后時光。彼時的媒體確信,2025 年將是三強爭霸的決戰時刻。
歷史的轉折往往比劇本更有戲劇性。2025 年初,DeepSeek 如同一場沒有預兆的海嘯,率先打響了" AI 普惠"的第一槍。
{jz:field.toptypename/}1 月中旬,DeepSeek 正式上線手機端 App,據相關數據,僅一個春節假期,其下載量便爆發式增長至 6400 萬次,這幾乎是同期國內其他 AI 應用周下載量總和的 6 倍。盡管"服務器繁忙"的提示頻繁彈出,但用戶對 DeepSeek 的熱情卻高位不減,人們將其稱為" DeepSeek 時刻"。
騰訊迅速跟進,微信與元寶紛紛接入 DeepSeek R1 模型,將這場關于推理模型的競賽推向高潮。QuestMobile 的數據顯示,DeepSeek App 的日活在 2025 年 2 月底突破 5000 萬。在開源普惠效應的沖擊下,原生 AI App 的行業格局被徹底顛覆:原有的座次被重排,Top 3 更迭為 DeepSeek、豆包與騰訊元寶。
DeepSeek 的威壓之下,分化開始出現。零一萬物率先選擇了"務實"。它迅速將" DeepSeek Moment "納入企業服務的話術體系,成為"六小龍"中第一家全面擁抱 DeepSeek、提供定制部署方案的公司。
在當時,零一萬物還面臨人才的流失,包括曹大鵬、戴宗宏在內的核心技術高管接連出走,模型預訓練負責人谷雪梅也宣布離職。動蕩同樣發生在百川智能。2025 年 3 月,王小川在搜狗時期的老部下、負責大模型開發的聯創陳煒鵬與焦可相繼離開。
更殘酷的數據體現在 C 端戰場。《字母榜》報道,2024 年曾單月投流過億的月之暗面,在 2025 年 2 月按下了暫停鍵。在停止了投放,純粹依靠自然流量之下,Kimi 的 MAU 從峰值 2024 年 Q4 的 3600 萬 斷崖式下跌至 2025 年 Q3 的 967 萬。用戶規模的差距,被巨頭無情拉大。
蕭條之下,剩下的智譜 AI、MiniMax、月之暗面、階躍星辰四家,盡管沒有公開爆出放棄預訓練的消息,但其在追趕 OpenAI 的進度上都有了明顯的下滑。
故事在下半場發生了微妙的變奏。取得現象級成功后,DeepSeek 并未乘勝追擊擴大 C 端版圖,而是選擇了一條更純粹的道路:收緊市場推廣,專注于底層能力與開放生態建設。甚至有觀點認為,它正在退回到"純粹智力供應商"的角色。
洗牌看似結束,但規則已被改寫。生存下來的"小龍們"被迫放棄了單純依靠燒錢換增長的幻夢。在Gross Margin(毛利率)被 DeepSeek 永久性壓低的新常態下,金沙電玩城它們開始尋找新的生存縫隙:月之暗面聚焦 Agent 的產品化;智譜與 MiniMax 相繼上市,向公開市場尋求資金與品牌背書。
市場上不再有關于"六小龍誰能成為下一個 OpenAI "的猜測,紛紛討論起一個關于"如何在巨頭與開源的夾縫中,找到商業下限"的現實故事。
標尺之下的繁花與喘息
從最新的研究成果來看,DeepSeek 依然是那個理想而堅定的技術信徒。
在其剛剛發布的論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》中,DeepSeek 提出了 Engram 架構。旨在為現有 MoE(混合專家)架構"減負"。

論文指出,Engram 將主干網絡的早期層從繁重的靜態模式重建任務中解放了出來。換句話說,以前的模型要花大量容量去"死記硬背"靜態知識,而現在 Engram 接管了這部分記憶,讓早期層可以專注于語義理解。這相當于為推理任務有效地加深了網絡,并通過預取機制實現了幾乎零開銷的訪問。
長上下文(Long Context)的優勢也因此變得顯著。通過將本地短語的"粘合劑"卸載到內存中,模型釋放了寶貴的注意力機制,專注于捕捉那些遙遠而隱秘的關聯。在"大海撈針"的多查詢匹配測試中,結果從 84.2% 躍升至 97.0%。
在《新立場》看來,此次 DeepSeek V4 的專精化,也暗示了 Scaling Law 在通用領域的邊際效應遞減。DeepSeek 通過此舉,實質上將自己定位為了"基礎能力的供水廠",而將那些復雜的、場景化的"產品定義權"和"市場接觸權",慷慨地讓渡給了下游。
這種在商業邊界上的主動"退讓",映射出的恰是 DeepSeek 與眾不同的企業文化,在國內互聯網流量為王的語境下,這家公司有些過于"低調且任性"。
創始人梁文鋒鮮少站在聚光燈下。有報道稱,他不僅公開反對大語言模型收費,甚至對送上門的外部投資持有排斥態度。在社交媒體上,DeepSeek 技術團隊的賬號屈指可數,且幾乎只討論硬核技術,對常規的用戶反饋顯得有些"鈍感"。正如周鴻祎一針見血的評價:梁文鋒根本不想做 APP,他的心思全在 AGI(通用人工智能)上。
這份"任性",在 2025 下半年演變為一種"心系天下"的開源普惠。同源數據顯示,2025 年下半年,第三方托管的 DeepSeek R1 和 V3 模型使用量呈指數級上升。
各行各業爭相接入,有人驚呼"混元、通義的‘智商’正在迎頭趕上",有人開發出了技術小白也能用的 AI 智能體,甚至有人將推理模型植入到了人形機器人的大腦中。
DeepSeek 的"胸懷"也給了垂直整合者——即"小龍們"一個 Product-Market Fit ( 被迫的市場匹配 ) 的窗口期。在此新命題下,幸存的玩家們依據自身稟賦,選擇了差異極大的突圍路徑,最終在 2026 年初迎來了喘息之機。
月之暗面選擇了"兩手抓"。產品側,Kimi 從 5 月開始高頻推出 Researcher、OK Computer、Kimi Code 等 Agent 新品;人事側,引入投資人背景的張予彤任總裁,統籌戰略與商業化。
創始人楊植麟也不再言必稱 OpenAI,他在年終信中寫道,公司的目標是超越 Anthropic 成為世界領先的 AGI 公司。憑借"長文本 +Agent "的雙輪驅動,月之暗面即將完成新一輪融資,估值攀升至 48 億美元,這距離其剛剛完成 5 億美元融資僅數周時間。
兩家上市企業也登上了新的高度。截至發稿,智譜與 MiniMax 市值分別達到 895 億與 1247 億。上市解決了智譜持續研發的"彈藥"問題,首席科學家唐杰隨即宣布全面回歸基礎模型研究,即將推出 GLM-5。


而估值領跑的 MiniMax 則在視頻生成領域發力,其新一代模型 Hailuo 2.3 在物理動作與微表情上效果顯著,同時推出了更低價的 Fast 版本,將批量創作成本砍半。
但這片應用層的"繁花似錦",本質上完全仰賴于 DeepSeek 所劃定的新標尺,DeepSeek 用開源和低價,無情地剝奪了中間商賺取"信息差"的權力,迫使所有幸存者必須從"販賣算力"轉向"販賣價值"。
而在劃定完這條紅線后,DeepSeek 選擇"高抬貴手"。
當然這并非出于商業上的仁慈,而更像是一種高維度的技術潔癖。在同行們還在為應用層的日活(DAU)沾沾自喜時,DeepSeek 已經轉身,全力投身于那些更枯燥、更抽象、也更具決定性的難題——下一代稀疏架構的效率極限、推理強化的邏輯閉環、以及那個代號為" MODEL1 "的未知架構。
這種"不在場",反而構成了一種更為強大的壓迫感。對于整個 AI 行業而言,DeepSeek 平時靜默無聲,但它每一次參數的微調、每一篇論文的發布,都決定了生態圈里的空氣是稀薄還是充沛,是晴空萬里還是暴雨將至。
從這個意義上看,DeepSeek 更像是 AI 牌桌上發牌員手中那副不斷變化的底牌。
寫在最后
此外,《新立場》捕捉到一條被忽視的暗線,DeepSeek 最新論文的核心思路是無限制地加大內存吞吐,這一思路,與大洋彼岸硅谷硬件巨頭的頂層設計不謀而合。無論是谷歌 TPU 的雙倍內存升級,還是英偉達下一代 Rubin 架構對上下文內存的堆砌,中美技術棧在解決瓶頸時達成了驚人的默契。
對于龐大的 MoE(混合專家)模型而言,單純依賴顯存已是死胡同,大量采購 DRAM 進行混搭成為剛需。這也解釋了為何沉寂多時的內存市場,會在最近年突然迎來一波結構性暴漲。
歷史總是押著相似的韻腳。2016 年 AlphaGo 的驚鴻一瞥,曾催生了上一代" AI 四小龍"的鍍金時代。商湯與云從雖先后登陸資本市場,卻在高昂的研發投入與慘淡的商業化回報中消耗了耐心。當 OpenAI 開啟大模型時代,上一代的技術明星仍在潛心修煉"造血"能力。
作為本輪周期中率先轉型的零一萬物創始人,李開復曾在 3 月做過一個殘酷的預判:中國市場最終能站穩腳跟的基礎模型廠商只有三家—— DeepSeek、阿里和字節。
站在 2026 年初的節點回望,預言部分應驗,但結局比想象中溫和。
幸存的"小龍們"呈現出一幅各得其所的圖景:智譜與 MiniMax 借力資本市場實現了市值躍遷;月之暗面手握重金,繼續在技術深水區進行下一場豪賭;而零一萬物們則在企業服務的"綠地"里找到了務實的敘事。一種劫后余生的松弛感,開始在行業彌漫。
但這種松弛感,或許恰恰源于那個最緊繃的存在所主動選擇的一次"退讓"。

備案號: