有人買NVDA 輝達嗎?

Sinfield

15721分

421樓

Sinfield

個人積分：15721分

文章編號：92521645

Sinfield wrote:
Sinfie...(恕刪)

老黃老早把明年的記憶體訂滿了～

Sinfield

15721分

422樓

Sinfield

個人積分：15721分

文章編號：92523434

Sinfield wrote:
Sinfie...(恕刪)

CUDA 史上最大更新： NVIDIA的「第二次壟斷」開始——AI 開發門檻拉低，越來越好寫，但越來越離不開NVIDIA
CUDA 史上最大更新來了，不是效能提升而已，是把 AI 產業鏈的「話語權」再往上拉一層
幾個小時前，NVIDIA 正式發布 CUDA Toolkit 13.1，官方直接下重話：👉 「這是 CUDA 誕生近 20 年來最大的一次更新。」
這不是一次普通的軟體升級，而是NVIDIA再次把 AI 世界「鎖」在自己生態系裡。
這次更新，市場最該注意的只有一句話：
NVIDIA不再只賣 GPU，而是在定義「未來 AI 怎麼被寫出來」。

一、CUDA Tile 出現，意義不只是「比較好寫程式」
這次更新的核心關鍵字只有一個：
👉 CUDA Tile
過去 20 年，CUDA 的本質是什麼？👉 SIMT（單指令多線程）你要自己管「一個 thread 要幹嘛、一個 block 怎麼排」，效能強，但難寫、難移植。
CUDA Tile 做了什麼？
工程師不用再告訴 GPU「你怎麼算」，只要告訴它「我要算什麼」。
• 開發者只定義「資料區塊（Tile）」在做哪些數學運算 • 編譯器 + runtime 自動決定怎麼丟給 Tensor Core • 不用管 Blackwell、下一代架構、再下下一代
這影響有多大？
✅ 開發效率大幅提升✅ 程式碼天然綁定 NVIDIA 硬體✅ 未來換架構不用重寫程式
這不是單純工具，是「程序語言層級的壟斷」開始成形。

二、為什麼這一步，對英偉達比硬體還重要？
市場常犯一個錯：👉 只看 GPU 規格、算力、功耗
但 NVIDIA 真正賺最多的是什麼？
不是晶片，是「切換成本」
CUDA Tile 的出現，代表： • AI 模型 • 算子（Operator） • 底層優化路徑
全部在 CUDA IR → Tile → Tensor Core 這條鏈上被「鎖死」
想換 AMD？想換自研 ASIC？👉 可以，但你要重寫一整套開發邏輯
這就是護城河，不是效能，是時間與人力成本。

三、Green Context：GPU 開始變成「雲端作業系統」
這次另一個被低估，但對雲端超重要的更新：
Green Context 正式進入 Runtime API
白話翻譯：
一張 GPU，現在可以像雲端 VM 一樣，被精準切割、隔離、排程。
對誰最有用？ • Hyperscaler（雲端業者） • AI Data Center（AIDC） • 多租戶 AI 服務平台
這代表什麼？ • GPU 利用率提高 • 延遲可控 • SLA（服務等級）更穩定
也就是說：
👉 英偉達直接幫雲端業者把 GPU 變成「可租賃的標準化資產」
這一步，會讓 H100 / B200 / 未來 GPU 的單位產出價值再拉高一階。

四、Blackwell + CUDA 13.1 = AI 工廠而不是 GPU
這次很多更新，其實都指向同一件事： • Tile 只先支援 Blackwell • MLOPart 只支援 B200 / B300 • FP4 / FP8 / 混合精度全面優化
訊號非常清楚：
👉 軟體升級 = 強迫客戶升級硬體
但客戶甘願，為什麼？
因為： • 開發成本下降 • 推理成本下降 • 服務穩定度上升
這不是銷售技巧，是生產力提升。

五、哪些公司受益？
✅ 第一層：直接最大受益者
#NVIDIA（#NVDA） • CUDA 鎖生態 • Blackwell 吃升級潮 • 軟硬體綁定更深
👉 估值貴，但護城河更厚

✅ 第二層：IP 與 EDA 工具鏈
CUDA 越複雜，誰越賺錢？ • #Synopsys（#SNPS） • #Cadence（#CDNS）
為什麼？ • 高階 GPU + AI SoC 設計更依賴 EDA • Tile / Tensor 專用路徑需要更多驗證工具
👉 AI 越複雜，EDA 越值錢

✅ 第三層：伺服器與系統整合商 • #Supermicro（#SMCI） • #Dell • #HPE
原因很簡單：
GPU 不再是「插上就好」，而是「整套系統優化」
Green Context、MPS 分區、資源隔離👉 都吃系統設計深度

✅ 第四層：雲端與 AI SaaS 平台 • #Microsoft（Azure AI） • #Amazon（AWS） • #Google（GCP）
因為： • GPU 利用率提高 = 單位毛利改善 • 高階模型推理成本下降 • 多租戶 AI 服務更容易 scale

六、這不是短線利多，是結構性改變
CUDA 13.1 不是讓模型「快一點」而已。
它真正做的是：
把 AI 開發門檻往下拉，同時把離開 NVIDIA 的代價拉到更高。
這種軟體更新， • 季報不一定立刻反映 • 但 2～3 年後會變成「為什麼別人追不上」的原因

總結
這不是 CUDA 的更新，是英偉達把「AI 生產方式」再收進自己口袋一次。

ASIC開發週期要2年，問題是大模型半年就改朝換代
Gemini 3.0 pro用的TPU是兩年前開發的版本，不是不用新的，問題是ASIC開發週期就是要花這麼久～
TPU能玩的起來是因為Google有本事軟硬體整合，其他廠商就不容易～

Sinfield

15721分

423樓

Sinfield

個人積分：15721分

文章編號：92527410

Sinfield wrote:
Sinfie...(恕刪)

NVIDIA 這次根本是要把 AI 算力領先地位鎖死！供應鏈消息指出，台積電下一代 A16 製程目前唯一的客戶，竟然只有 NVIDIA，一口氣搶下首發與獨家試產。這項技術專為 AI 與高效能運算打造，也將成為 2028 年「Feynman」GPU 的關鍵武器。
A16 製程的厲害之處在於，它同時換上奈米片電晶體與新一代背面供電技術（Super Power Rail）。這讓晶片能塞進更多電晶體、速度提升 8～10%，功耗卻降低 15～20%。因為難度高、成本貴，產量初期十分有限，也讓 NVIDIA 抓住了稀缺的先進製程優勢。反觀蘋果則選擇跳過 A16，把資源押在更後面的 A14 製程，展現與 NVIDIA 完全不同的產品節奏。
更關鍵的是，這也是黃仁勳四年 GPU 藍圖的一部分：Blackwell、Rubin、Rubin Ultra，到 2028 年的 Feynman，更新速度快得像硬體界的「年更制」。台積電高雄 P3 廠也將在 2027 年進入 A16 大量生產，全力擔任 NVIDIA 的算力後盾。AI 競賽正進入下一回合，而 NVIDIA 顯然已提前把位置坐穩。
https://www.techbang.com/posts/126821

joeybaby2017

9369分

424樓

joeybaby2017

個人積分：9369分

文章編號：92529378

掃墓機器人

125分

425樓

掃墓機器人

個人積分：125分

文章編號：92529413

長線看好一定要買吧

Sinfield

15721分

426樓

Sinfield

個人積分：15721分

文章編號：92529786

Sinfield wrote:
更關鍵的是，這也是黃仁勳四年 GPU 藍圖的一部分：Blackwell、Rubin、Rubin Ultra，到 2028 年的 Feynman，更新速度快得像硬體界的「年更制」。台積電高雄 P3 廠也將在 2027 年進入 A16 大量生產，全力擔任 NVIDIA 的算力後盾。AI 競賽正進入下一回合，而 NVIDIA 顯然已提前把位置坐穩。

老黃要破ASIC便宜的方法不難
重點在ASIC的死穴
開發時間長
2年的時間就算是Gemini 3也是兩年前的V7版本TPU

黃氏定律用速度卷死對手
大模型6個月1代
用CUDA開發速度快
可以用上最先進的GPU製程配上完整的CUDA生態系
算總成本與開發時程
6個月出一代大語言模型沒問題

只能說
Google的完整軟硬體生態地球第一
把硬體開發速度慢的劣勢打平

老黃把硬體台積電與記憶體資源優先綁死
用先進2代的製程拉平ASIC成本
算總成本不會輸
開發時程快

所以未來的AI領導
NVDA與Goog都搶下門票
這可是
Elon Musk說的～

tonyboy015

525分

427樓

tonyboy015

個人積分：525分

文章編號：92529977

Google最大的優勢是他十幾年來從互聯網累積下來的資料庫可以做後盾
而它的TPU是依它的軟體區優化理論上是往正向發展

其實各家拿出自己優勢互拚對消費者是好事

另既之前網友提供對岸把私運AI晶片換核心事件後
今天又傳出美國私人公司把Nvidia貼牌成"Sandkyan"的標籤在走私到對岸金額1.6億美刀
可見老黃還是老神在在拇指向上

john65537

2939分

428樓

john65537

個人積分：2939分

文章編號：92570080

黃仁勳賺300億先跑了？輝達急墜熊市「美AI股大崩潰」原因全解析

獨立開發大神曝AI競賽終極贏家：沒有輝達

擦鞋童

1995分

429樓

擦鞋童

個人積分：1995分

文章編號：92578993

好文分享，轉自FB：Fomo研究院

過去十五年，Nvidia憑藉其CUDA軟體生態系，在AI運算領域築起了一道牢不可破的護城河。

然而，Google和Meta正在聯手發動一場名為「TorchTPU」的行動，正試圖在這座固若金湯的堡壘上，鑿開第一道裂縫。

▋一部長達15年的「屠龍」失敗史

要理解這次挑戰為何意義非凡，我們必須先回顧過去那些倒在Nvidia護城河下的挑戰者們：

1. OpenCL (2008-2020) - 「委員會設計的駱駝」：

這是由蘋果、AMD、Intel等巨頭組成的「聯合國軍」，試圖以開放標準對抗CUDA的封閉。結果卻是一場災難。

各家廠商的實作標準不一，導致「一次編寫，到處除錯」。更致命的是，Nvidia自家的編譯器對CUDA的優化遠超OpenCL，使其在自家硬體上永遠快人一步。

2. AMD ROCm (2016至今) - 「悲壯的苦行軍」：

AMD投入了近十年的資源，試圖打造一個CUDA的直接替代品。然而，這是一場漫長且痛苦的追趕。

開發者社群的體驗充滿了挫折：不穩定的驅動、殘缺的函式庫支援、突然被終止支援的硬體型號。

直到2025年，ROCm才在「推理（Inference）」這個特定領域被認為「勉強可用」。這證明了：單純的硬體性價比和API模仿，無法撼動一個根深蒂固的開發者習慣。

3. Google (2016至今) - 「華麗的象牙塔」：

Google的TPU晶片在性能上早已能與Nvidia一較高下，但Google的做法是：它堅持推廣自家內部使用的JAX框架。

JAX與主流的PyTorch在編程思想上格格不入，要求開發者徹底重寫程式碼、顛覆開發習慣。這無異於要求全世界的英語作家改用拉丁文寫作。

結果是，TPU在Google內部大放異彩，在外部市場卻幾乎無人問津。

CUDA的護城河，從來不只是一套API，它是一個龐大、繁盛、活生生的「文化圈」。

它包含了十五年來累積的無數函式庫、Stack Overflow上的問答、學術論文裡的範例、以及數百萬開發者腦中的肌肉記憶。

任何試圖讓開發者離開這個舒適圈的策略，都注定失敗。

▋TorchTPU：一場「柔道」反擊

這次，Google終於想通了。

以前的關係是：

- NVIDIA 套裝：PyTorch → CUDA → NVIDIA GPU (大家都在用)

- Google 套裝：JAX → XLA → Google TPU (只有 Google 自己跟少數人用)

在強迫市場接受JAX失敗後，Google的戰略發生了180度大轉彎。他們的新口號可以理解為：

「好吧，你們繼續用你們最愛的PyTorch，我來把髒活累活幹了，把底層管道鋪好，讓PyTorch可以直接通到我的TPU上！」

這就是TorchTPU的核心——讓開發者在幾乎不改動PyTorch程式碼的情況下，只需將設備從”cuda”改成”tpu”，就能在TPU上流暢運行。

這意味著Google終於承認：在強大的生態慣性面前，硬體性能只是次要矛盾。

▋Meta的角色：從「教父」到「盟友」

那麼，這關Meta什麼事？關係重大。

PyTorch正是由Meta（前Facebook）在2016年主導開發並開源的。它不僅是一個框架，更是Meta在AI領域權力的延伸。

作為PyTorch的「教父」和最大貢獻者，Meta對其發展方向擁有不少話語權。

Google想讓TPU順利接入PyTorch，沒有Meta的鼎力相助幾乎是不可能的任務。而Meta之所以願意伸出援手，動機非常純粹：它不想再當Nvidia的「數位農奴」。

Meta每年花費數十億甚至上百億美元購買Nvidia GPU，心裡滴的是血。這種近乎100%的依賴，讓它在價格和供應鏈上毫無議價能力。

因此，扶植一個強大的「備胎」——Google TPU，對Meta而言是至關重要的戰略佈局。

如果PyTorch在TPU上跑得跟在Nvidia最新晶片上一樣順暢，Meta就能在談判桌上對黃仁勳說：「嘿，你的晶片太貴了，供應還不穩定。我隨時可以把我的模型搬到Google的TPU上運行。」

這場結盟，是典型的「敵人的敵人就是朋友」。Google獲得了進入主流生態的門票，Meta則獲得了制衡供應商的王牌。

▋從「顛覆」到「制衡」的現實主義

TorchTPU的目標，並不是要「打倒」Nvidia（事實上也不可能打倒），而是要創造一個更健康的市場結構。

長久以來，所有巨頭——包括Amazon、Microsoft、Google——都在努力打造Nvidia之外的第二個、甚至第三個AI晶片供應來源。

這不僅是為了降低成本，更是為了確保自身基礎設施的戰略安全。沒有人想把自家命脈完全交到單一供應商手上。

從這個角度看，TorchTPU的首要意義是大幅提升Google TPU的實用性與市場接受度，使其從一個「內部專供」的特殊工具，變成一個真正能與Nvidia GPU在特定場景下競爭的商業產品。

CUDA的統治地位在未來數年內依然難以撼動，尤其是在需要極致性能的前沿研究與模型訓練領域。然而，在成本更敏感的市場，TorchTPU有可能撕開一個缺口。

根據目前的技術分析，TorchTPU在2026-2027年達到「生產可用」的機率相當高。

然而，即便TorchTPU技術上成功了，一個更根本的問題浮現：既然CUDA用得好好的，開發者為什麼要主動切換？

這就是克服市場慣性的核心難題。

「技術上可行」和「用戶願意遷移」之間，隔著一道巨大的鴻溝。對於絕大多數開發者而言，「如果它沒壞，就別修它」（If it ain’t broke, don’t fix it）是工作的金科玉律。

CUDA生態就是那個「沒壞」的系統，它穩定、成熟、資源豐富。

因此，驅動開發者遷移的動力，往往不是來自開發者自身的好奇心，而是來自外部的壓力與誘因。

TorchTPU的突破口，恰恰在於那些「追求性價比」的場景。因此，屆時我們將看到一個更為多元的權力格局：

- Nvidia繼續主導最高端的市場，但其在中低端市場的定價權將受到侵蝕。

- Google TPU憑藉與PyTorch的整合和成本優勢，成為企業在推理和部分訓練任務上的「第二選擇」。

總結來說，開發者主動從CUDA遷移到TPU的場景可能不多，但被動遷移的場景會越來越多。

TorchTPU的戰略精髓不在於說服開發者「TPU更好」，而在於向企業決策者證明「TPU更划算、更容易取得」，同時向開發者保證：「這個轉換過程很簡單，不會增加你的工作負擔。」

這場由Google和Meta發起的「軟體起義」，其真正的歷史意義，不在於推翻舊王，而在於終結一家獨大的神話，為AI基礎設施的未來，引入了遲到已久、卻至關重要的「權力平衡」。