642分

樓主

個人積分：642分

文章編號：91027760

DeepSeek引起矽谷恐慌

Chris

2025/01/27 AI 、 DeepSeek

DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅，就有報導指出，Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術。

最近中國人工智慧新創 DeepSeek 可說讓整個矽谷陷入了一陣恐慌。DeepSeek 最新的大型開源 AI 模型「DeepSeek-V3」671B 具參數，測試表現已超越 Meta 的 Llama 3.1-405B，而且更重要的是「號稱」成本遠小於其他模型，只使用約 2048 張 H800 GPU 訓練了 2 個月，總成本約為 560 萬美元！

DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅，就有報導指出，Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術，其中兩個重點關注 DeepSeek 如何降低培訓成本，另外兩個則徹底分析 DeepSeek 所使用的數據源，深怕下一代 Llama 性能被 DeepSeek 遠遠領先。
DeepSeek 的背景

DeepSeek 的創辦人梁文鋒同時也是量化對沖基金幻方量化 High-Flyer 的創辦人，可說是因為有對沖基金作為後盾，讓 DeepSeek 能夠擺脫外部投資者的壓力。DeepSeek 成立於 2023 年 4 月，並在同年就推出了第一個模型 DeepSeek Coder，該模型可供研究人員和商業使用免費使用，並在隨後第一代 DeepSeek LLM。2024 年 5 月，DeepSeek-V2 問世，因其性能和低廉價格，在中國 AI 模型市場掀起一波價格戰，迫使字節跳動、騰訊、百度和阿里巴巴等中國科技巨頭紛紛降價以保持競爭力。

DeepSeek-V2 的後繼者 DeepSeek-Coder-V2，擁有 2360 億個參數，專為複雜的程式碼編寫挑戰而設計，並具有高達 128K 的上下文長度。DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1，更進一步鞏固了其作為顛覆性力量的地位。擁有 6710 億參數的 DeepSeek-V3，在各種基準測試中表現出色，且所需資源遠少於同類模型。DeepSeek-R1 則專注於推理任務，其先進功能直指 OpenAI 的 o1 模型。

報導指出，DeepSeek 模型採用了混合專家架構（Mixture-of-Experts, MoE），僅在特定任務中啟動一小部分參數，可以大幅降低計算成本，提高效率。此外，DeepSeek-V3 還整合了多頭潛在注意力（Multi-Head Latent Attention, MLA），提升了模型處理數據的能力，能夠識別細微的關係並同時處理多個輸入方面。最後 DeepSeek 也有進行知識蒸餾，將大型模型的知識和能力轉移到更小、更高效的模型中。

目前看來 DeepSeek 的產品發布時間似乎也經過精心的策略性安排，例如 DeepSeek-R1 的發布時間與美國總統川普的就職典禮相吻合，有暗示展示中國在 AI 領域快速發展，有意挑戰美國在 AI 領域主導地位的意味。作為反應，Hugging Face 也推出了名為 Open R1 的開源計畫，完全複製 DeepSeek-R1 的訓練管道，讓研究人員和開發人員能夠複製並在此基礎上進行開發。
矽谷怎麼看待 DeepSeek？

但 DeepSeek 讓人最好奇的就是：它是怎麼在美國晶片禁運的背景下做到的？Curai 執行長 Neal Khosla 就認為 DeepSeek 的表現是「國家心理戰」，「假裝成本很低，以證明定價低合理，壓低價格影響美國 AI 產業競爭力。」

另外也不少人認為，如果中國能在缺乏先進晶片的情況下，以低成本建立尖端模型，那就會對美國股市構成重大威脅，質疑產業內數千億美元資本支出的合理性。然而像 Y Combinator 執行長 Garry Tan 則他認為，如果模型訓練變得更便宜、更快速，反而會加速 AI 的實際應用需求。Meta AI 科學家 Yann LeCun 更呼籲不應從中美對抗的角度看待，而是視為「開源模型正在超越專用模型」的巨大趨勢。

2025-01-27 13:18 #1

文章關鍵字

DeepSeek 矽谷恐慌

enzo69356

5495分

2樓

enzo69356

個人積分：5495分

文章編號：91027784

lexusRX300 wrote:
DeepSeek-V3 以開源和低成本的策略讓許多矽谷人士倍感威脅，就有報導指出，Meta 內部已經專門設立了四個專案部門分析 DeepSeek 的技術。

一分錢一分貨

小米5000元手機跟蘋果5萬手機...一樣可以5G,一樣可以拍照,一樣可打電話打LINE,看劇打遊戲,看股票網銀
你說有沒有差~~~

AI拚多多版,,甲粗爸應該沒問題

中國確實可以製造出高CP值"任何產品"
但高品質就一回事

smallbeetw

軟體不是這麼一回事

2025-01-27 14:28

enzo69356

恩確實不好說~很多ERP都是國外獨大,台灣跟大陸自製便宜高CP的也很多~讓我們繼續看下去

2025-01-27 16:52

goet0

3606分

3樓

goet0

個人積分：3606分

文章編號：91028090

enzo69356 wrote:
一分錢一分貨

小米5000元手機跟蘋果5萬手機...一樣可以5G,一樣可以拍照,一樣可打電話打LINE,看劇打遊戲,看股票網銀
你說有沒有差~~~

AI拚多多版,,甲粗爸應該沒問題

中國確實可以製造出高CP值"任何產品"
但高品質就一回事

目前使用起來比chatgpt4o還要強

除非openai能端出更強的產品

但考慮到價格 chatgpt已經沒有太大的優勢了

DKQQ

217分

4樓

DKQQ

個人積分：217分

文章編號：91029642

META +1.73%

可怕的事星際之門之後跑出這事件

感覺就是預謀刻意

看看今天美股

我刷了整天手機都是DEEPSEEK 太可怕了

跟我刷青鳥網軍一樣跟蟲一樣占據我的手機

chanron

282分

5樓

chanron

個人積分：282分

文章編號：91034857

引述自知乎:
DeepSeek之前，大家一起畫餅，今天Meta畫一張千層餅，明天英偉達畫一張披薩餅。然後OpenAI不識相，做了個燒餅。大家一起哈哈大笑，誇這燒餅真香。 OpenAI繼續做餅，大家開始擦煎餅的鍋子說要開始做餅了。今天Meta說要開始坐千層餅，明天英偉達說要做披薩餅，後天OpenAI說要往燒餅裡加肉末。資本們為了早日吃到這些餅不斷給這些餅鋪投銀子，來往的路人看餅鋪熱鬧也紛紛花錢要求預定這些餅。整條街熱鬧異常。但是過往的食客們一直都處於飢餓狀態，沿街想做餅的小販們也為了做餅不斷湊錢。此時，一個叫DeepSeek的小商販挑著一個大扁擔來到了街上，然後大喊一句“熱乎乎的大肉燒餅來嘍！牛肉燒餅，豬肉燒餅，羊肉燒餅應有盡有！”你身為望餅欲穿的食客，你怎麼選？是不斷加大在Meta餅鋪和英偉達餅舖的投入從而可以更早吃到餅？還是去花大錢給OpenAI餅鋪讓他們下一鍋給你多加肉？亦或是直接去找DeepSeek小販那去買個大肉餅？用我同學和我聊天的原話說，DeepSeek把我們整個產業的遮羞布都扯下來了。什麼錢不夠，什麼硬體不行，什麼數據不行，說白了是演算法不行

chanron

282分

6樓

chanron

個人積分：282分

文章編號：91034890

enzo69356 wrote:
一分錢一分貨小米5000...(恕刪)

deepseek的優化演算法根據外媒說法經驗證能用28奈米製程的晶片就能達成以前五奈米七奈米才能完成的工作,這就導致nvidia ,台積電美國股價一天暴跌百分之十幾,這跟靠硬體演算完全不一樣的概念
參考英文網頁: https://medium.com/@julio.pessan.pessan/how-deepseeks-6m-model-is-shaking-silicon-valley-to-its-core-23bb5c40cdf0

4u09

922分

7樓

4u09

個人積分：922分

文章編號：91035171

我倒想看看遙遙領先能多久？

美股廖添丁

看你家遙控器轉到那台。三粒：沒領先過。終添：美國人嚇得屁滾尿流。

2025-01-29 11:40

DeepSeek引起矽谷恐慌

小惡魔新聞台

今日熱門文章 網友點擊推薦！

今日熱門文章　網友點擊推薦！