Chris

2025/01/27 AI 、 DeepSeek

DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅,就有報導指出,Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術。

最近中國人工智慧新創 DeepSeek 可說讓整個矽谷陷入了一陣恐慌。DeepSeek 最新的大型開源 AI 模型「DeepSeek-V3」671B 具參數,測試表現已超越 Meta 的 Llama 3.1-405B,而且更重要的是「號稱」成本遠小於其他模型,只使用約 2048 張 H800 GPU 訓練了 2 個月,總成本約為 560 萬美元!

DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅,就有報導指出,Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術,其中兩個重點關注 DeepSeek 如何降低培訓成本,另外兩個則徹底分析 DeepSeek 所使用的數據源,深怕下一代 Llama 性能被 DeepSeek 遠遠領先。
DeepSeek 的背景

DeepSeek 的創辦人梁文鋒同時也是量化對沖基金幻方量化 High-Flyer 的創辦人,可說是因為有對沖基金作為後盾,讓 DeepSeek 能夠擺脫外部投資者的壓力。DeepSeek 成立於 2023 年 4 月,並在同年就推出了第一個模型 DeepSeek Coder,該模型可供研究人員和商業使用免費使用,並在隨後第一代 DeepSeek LLM。2024 年 5 月,DeepSeek-V2 問世,因其性能和低廉價格,在中國 AI 模型市場掀起一波價格戰,迫使字節跳動、騰訊、百度和阿里巴巴等中國科技巨頭紛紛降價以保持競爭力。

DeepSeek-V2 的後繼者 DeepSeek-Coder-V2,擁有 2360 億個參數,專為複雜的程式碼編寫挑戰而設計,並具有高達 128K 的上下文長度。DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1,更進一步鞏固了其作為顛覆性力量的地位。擁有 6710 億參數的 DeepSeek-V3,在各種基準測試中表現出色,且所需資源遠少於同類模型。DeepSeek-R1 則專注於推理任務,其先進功能直指 OpenAI 的 o1 模型。

報導指出,DeepSeek 模型採用了混合專家架構(Mixture-of-Experts, MoE),僅在特定任務中啟動一小部分參數,可以大幅降低計算成本,提高效率。此外,DeepSeek-V3 還整合了多頭潛在注意力(Multi-Head Latent Attention, MLA),提升了模型處理數據的能力,能夠識別細微的關係並同時處理多個輸入方面。最後 DeepSeek 也有進行知識蒸餾,將大型模型的知識和能力轉移到更小、更高效的模型中。

目前看來 DeepSeek 的產品發布時間似乎也經過精心的策略性安排,例如 DeepSeek-R1 的發布時間與美國總統川普的就職典禮相吻合,有暗示展示中國在 AI 領域快速發展,有意挑戰美國在 AI 領域主導地位的意味。作為反應,Hugging Face 也推出了名為 Open R1 的開源計畫,完全複製 DeepSeek-R1 的訓練管道,讓研究人員和開發人員能夠複製並在此基礎上進行開發。
矽谷怎麼看待 DeepSeek?

但 DeepSeek 讓人最好奇的就是:它是怎麼在美國晶片禁運的背景下做到的?Curai 執行長 Neal Khosla 就認為 DeepSeek 的表現是「國家心理戰」,「假裝成本很低,以證明定價低合理,壓低價格影響美國 AI 產業競爭力。 」

另外也不少人認為,如果中國能在缺乏先進晶片的情況下,以低成本建立尖端模型,那就會對美國股市構成重大威脅,質疑產業內數千億美元資本支出的合理性。然而像 Y Combinator 執行長 Garry Tan 則他認為,如果模型訓練變得更便宜、更快速,反而會加速 AI 的實際應用需求。Meta AI 科學家 Yann LeCun 更呼籲不應從中美對抗的角度看待,而是視為「開源模型正在超越專用模型」的巨大趨勢。
lexusRX300 wrote:
DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅,就有報導指出,Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術。


一分錢一分貨

小米5000元手機跟蘋果5萬手機...一樣可以5G,一樣可以拍照,一樣可打電話打LINE,看劇打遊戲,看股票網銀
你說有沒有差~~~

AI拚多多版,,甲粗爸應該沒問題

中國確實可以製造出高CP值"任何產品"
但高品質就一回事
smallbeetw
軟體不是這麼一回事
enzo69356
恩確實不好說~很多ERP都是國外獨大,台灣跟大陸自製便宜高CP的也很多~讓我們繼續看下去
enzo69356 wrote:
一分錢一分貨

小米5000元手機跟蘋果5萬手機...一樣可以5G,一樣可以拍照,一樣可打電話打LINE,看劇打遊戲,看股票網銀
你說有沒有差~~~

AI拚多多版,,甲粗爸應該沒問題

中國確實可以製造出高CP值"任何產品"
但高品質就一回事


目前使用起來 比chatgpt4o還要強

除非openai能端出更強的產品

但考慮到價格 chatgpt已經沒有太大的優勢了
META +1.73%

可怕的事 星際之門 之後 跑出這事件

感覺就是預謀 刻意

看看今天美股

我刷了整天手機 都是DEEPSEEK 太可怕了

跟我刷青鳥網軍一樣 跟蟲一樣 占據我的手機
引述自知乎:
DeepSeek之前,大家一起畫餅,今天Meta畫一張千層餅,明天英偉達畫一張披薩餅。然後OpenAI不識相,做了個燒餅。大家一起哈哈大笑,誇這燒餅真香。 OpenAI繼續做餅,大家開始擦煎餅的鍋子說要開始做餅了。今天Meta說要開始坐千層餅,明天英偉達說要做披薩餅,後天OpenAI說要往燒餅裡加肉末。資本們為了早日吃到這些餅不斷給這些餅鋪投銀子,來往的路人看餅鋪熱鬧也紛紛花錢要求預定這些餅。整條街熱鬧異常。但是過往的食客們一直都處於飢餓狀態,沿街想做餅的小販們也為了做餅不斷湊錢。此時,一個叫DeepSeek的小商販挑著一個大扁擔來到了街上,然後大喊一句“熱乎乎的大肉燒餅來嘍!牛肉燒餅,豬肉燒餅,羊肉燒餅應有盡有!”你身為望餅欲穿的食客,你怎麼選?是不斷加大在Meta餅鋪和英偉達餅舖的投入從而可以更早吃到餅?還是去花大錢給OpenAI餅鋪讓他們下一鍋給你多加肉?亦或是直接去找DeepSeek小販那去買個大肉餅?用我同學和我聊天的原話說,DeepSeek把我們整個產業的遮羞布都扯下來了。什麼錢不夠,什麼硬體不行,什麼數據不行,說白了是演算法不行
enzo69356 wrote:
一分錢一分貨小米5000...(恕刪)

deepseek的優化演算法根據外媒說法經驗證能用28奈米製程的晶片就能達成以前五奈米 七奈米才能完成的工作,這就導致nvidia ,台積電美國股價一天暴跌百分之十幾,這跟靠硬體演算完全不一樣的概念
參考英文網頁: https://medium.com/@julio.pessan.pessan/how-deepseeks-6m-model-is-shaking-silicon-valley-to-its-core-23bb5c40cdf0
我倒想看看遙遙領先能多久?
美股廖添丁
看你家遙控器轉到那台。三粒:沒領先過。終添:美國人嚇得屁滾尿流。
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!