厲害
================================================
不靠堆參數!DS V3.2性能為何提升這麼多?專家:全靠「這架構」追平閉源模型算力霸權
鉅亨網編譯陳韋廷
2025-12-02 14:50
DeepSeek 周一 (1 日) 發表兩款正式版大模型 DeepSeek-V3.2 與 DeepSeek-V3.2-Speciale,標誌著開源模式在能力競賽中實現關鍵突破,其中 V3.2 在推理測驗中達到 GPT-5 水平,僅略低於 Gemini-3.0-Pro,而專注智能體優化的 V3.2-Speciale 更在國際數學奧林匹克、中國數學奧林匹克、國際大學生程式設計競賽全球總決賽(ICIPC 2025)、國際大學生程式設計競賽全球總決賽四項頂級賽事中拿下金牌,展現了頂尖的問題解決能力。
cover image of news article
不靠堆參數!DS V3.2性能為何提升這麼多?專家:全靠「這架構」追平閉源模型算力霸權(圖:Shutterstock)
這次發布的核心亮點,在於 V3.2 在工具呼叫能力上達到目前開源模型的最高水平,大幅縮小開源與閉源模型的差距。
作為 DeepSeek 首個將「思考」融入工具使用的模型,V3.2 在「思考模式」下仍支援工具調用,透過「先分析、再規劃、再調用工具、再驗證、再修正」的循環流程,更接近人類的思維模式,為複雜任務如搜尋、程式碼編寫與調試、專案規劃帶來指數級能力提升。
官方透露,上述突破源自於兩項底層創新:一是全新的 DeepSeek Sparse Attention(DSA) 稀疏注意力機制,二是訓練策略的根本性變革。
DSA 機制是兩個月前實驗版 V3.2-Exp 引入的關鍵結構,有效解決了傳統注意力機制在長序列處理中的效率瓶頸,將計算複雜度從 O(L²) 降至 O(Lk),同時保持模型性能。
DSA 機制透過「閃電索引器」計算查詢 Token 與歷史 Token 的索引分數,篩選關鍵信息,並基於細粒度 Token 選擇機制檢索對應鍵值條目,最終在 MLA 的 MQA 模式下實現高效計算。
實測顯示,V3.2-Exp 在任何場景中均未弱於前代 V3.1,反而在效率和響應品質上顯著提升,意味著模型能以更少算力實現「看得更遠、想得更深」。
訓練策略的改變同樣關鍵。DeepSeek 摒棄了以往「直接調工具」的簡單模式,轉而採用「思考 + 調工具」的融合機制,並透過大規模 Agent 訓練資料合成方法,建構 1800 多個虛擬環境、85000 多條複雜指令的強化學習任務。這種「冷啟動 + 大規模合成資料 RL」的訓練方式,不依賴真實人類標註,而是透過建構「難解答、易驗證」的任務錘煉模型能力,使其在程式碼修復、搜尋路徑規劃等多步驟任務中的泛化能力大幅提升,甚至接近閉源商業模型。
此外,V3.2 在思考上下文管理上進行了優化。歷史推理內容僅在新用戶訊息引入時重置,工具相關訊息如工具輸出添加時則保留推理內容,避免了重複推理的低效問題。
後訓練階段的資源投入同樣重要。DeepSeek-V3.2 的後訓練計算預算超過預訓練成本的 10%,基於 GRPO 演算法引入無偏 KL 估計、離策略序列遮罩等穩定性改進,並為數學、程式設計、邏輯推理等六大專業領域開發專用專家模型,透過領域特定資料強化學習。
混合 RL 訓練將推理、智能體與人類對齊合併為單一階段,平衡了不同領域性能,避免了災難性遺忘問題。
與國際重量級模型對比,V3.2 展現出顯著優勢;在 AIME 2025 推理測試中通過率達 93.1%,接近 GPT-5 的 94.6% 和 Gemini-3.0-Pro 的 95%;HMMT 2025 測試得分 92.5%,與頂級閉源模型差距進一步縮小。
在智能體能力評測中,V3.2 在程式碼智能體任務 SWE-Verified 中解決率 73.1%,Terminal Bench 2.0 準確率 46.4%,搜尋智能體 BrowseComp 通過率從 51.4% 提升至 67.6%,均超越現有開源模型。工具使用基準測試中,τ2-Bench 通過率 80.3%,MCP-Universe 成功率 45.9%,且未針對這些測試集工具進行特殊訓練,並泛化能力突出。
DeepSeek-V3.2 的發布傳遞出一個重要訊號,也就是閉源模型的技術壟斷正被打破,開源模型開始具備一線競爭力。對開發者而言,低成本、可自訂的高性能模型成為可能。對企業來說,無需完全依賴海外 API 即可建立強大 AI 系統。對產業而言,大模型競爭從「參數規模」轉向「方法創新」,而 DeepSeek 則正站在這項變革的最前線。




























































































