Chris
2025/01/27 AI 、 DeepSeek
DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅,就有報導指出,Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術。
最近中國人工智慧新創 DeepSeek 可說讓整個矽谷陷入了一陣恐慌。DeepSeek 最新的大型開源 AI 模型「DeepSeek-V3」671B 具參數,測試表現已超越 Meta 的 Llama 3.1-405B,而且更重要的是「號稱」成本遠小於其他模型,只使用約 2048 張 H800 GPU 訓練了 2 個月,總成本約為 560 萬美元!
DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅,就有報導指出,Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術,其中兩個重點關注 DeepSeek 如何降低培訓成本,另外兩個則徹底分析 DeepSeek 所使用的數據源,深怕下一代 Llama 性能被 DeepSeek 遠遠領先。
DeepSeek 的背景
DeepSeek 的創辦人梁文鋒同時也是量化對沖基金幻方量化 High-Flyer 的創辦人,可說是因為有對沖基金作為後盾,讓 DeepSeek 能夠擺脫外部投資者的壓力。DeepSeek 成立於 2023 年 4 月,並在同年就推出了第一個模型 DeepSeek Coder,該模型可供研究人員和商業使用免費使用,並在隨後第一代 DeepSeek LLM。2024 年 5 月,DeepSeek-V2 問世,因其性能和低廉價格,在中國 AI 模型市場掀起一波價格戰,迫使字節跳動、騰訊、百度和阿里巴巴等中國科技巨頭紛紛降價以保持競爭力。
DeepSeek-V2 的後繼者 DeepSeek-Coder-V2,擁有 2360 億個參數,專為複雜的程式碼編寫挑戰而設計,並具有高達 128K 的上下文長度。DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1,更進一步鞏固了其作為顛覆性力量的地位。擁有 6710 億參數的 DeepSeek-V3,在各種基準測試中表現出色,且所需資源遠少於同類模型。DeepSeek-R1 則專注於推理任務,其先進功能直指 OpenAI 的 o1 模型。
報導指出,DeepSeek 模型採用了混合專家架構(Mixture-of-Experts, MoE),僅在特定任務中啟動一小部分參數,可以大幅降低計算成本,提高效率。此外,DeepSeek-V3 還整合了多頭潛在注意力(Multi-Head Latent Attention, MLA),提升了模型處理數據的能力,能夠識別細微的關係並同時處理多個輸入方面。最後 DeepSeek 也有進行知識蒸餾,將大型模型的知識和能力轉移到更小、更高效的模型中。
目前看來 DeepSeek 的產品發布時間似乎也經過精心的策略性安排,例如 DeepSeek-R1 的發布時間與美國總統川普的就職典禮相吻合,有暗示展示中國在 AI 領域快速發展,有意挑戰美國在 AI 領域主導地位的意味。作為反應,Hugging Face 也推出了名為 Open R1 的開源計畫,完全複製 DeepSeek-R1 的訓練管道,讓研究人員和開發人員能夠複製並在此基礎上進行開發。
矽谷怎麼看待 DeepSeek?
但 DeepSeek 讓人最好奇的就是:它是怎麼在美國晶片禁運的背景下做到的?Curai 執行長 Neal Khosla 就認為 DeepSeek 的表現是「國家心理戰」,「假裝成本很低,以證明定價低合理,壓低價格影響美國 AI 產業競爭力。 」
另外也不少人認為,如果中國能在缺乏先進晶片的情況下,以低成本建立尖端模型,那就會對美國股市構成重大威脅,質疑產業內數千億美元資本支出的合理性。然而像 Y Combinator 執行長 Garry Tan 則他認為,如果模型訓練變得更便宜、更快速,反而會加速 AI 的實際應用需求。Meta AI 科學家 Yann LeCun 更呼籲不應從中美對抗的角度看待,而是視為「開源模型正在超越專用模型」的巨大趨勢。
個人積分:642分
文章編號:91027760
文章段落
DeepSeek之前,大家一起畫餅,今天Meta畫一張千層餅,明天英偉達畫一張披薩餅。然後OpenAI不識相,做了個燒餅。大家一起哈哈大笑,誇這燒餅真香。 OpenAI繼續做餅,大家開始擦煎餅的鍋子說要開始做餅了。今天Meta說要開始坐千層餅,明天英偉達說要做披薩餅,後天OpenAI說要往燒餅裡加肉末。資本們為了早日吃到這些餅不斷給這些餅鋪投銀子,來往的路人看餅鋪熱鬧也紛紛花錢要求預定這些餅。整條街熱鬧異常。但是過往的食客們一直都處於飢餓狀態,沿街想做餅的小販們也為了做餅不斷湊錢。此時,一個叫DeepSeek的小商販挑著一個大扁擔來到了街上,然後大喊一句“熱乎乎的大肉燒餅來嘍!牛肉燒餅,豬肉燒餅,羊肉燒餅應有盡有!”你身為望餅欲穿的食客,你怎麼選?是不斷加大在Meta餅鋪和英偉達餅舖的投入從而可以更早吃到餅?還是去花大錢給OpenAI餅鋪讓他們下一鍋給你多加肉?亦或是直接去找DeepSeek小販那去買個大肉餅?用我同學和我聊天的原話說,DeepSeek把我們整個產業的遮羞布都扯下來了。什麼錢不夠,什麼硬體不行,什麼數據不行,說白了是演算法不行
為提供您更優質的服務,本網站使用cookies。若您繼續瀏覽網頁,即表示您同意我們的cookies政策。 了解隱私權條款




























































































