https://m.mydrivers.com/newsview/1050931.html?ref=https%3A//www.google.com/
快科技5月30日消息,作为人工智能“先驱”之一,NVIDIA在AI芯片领域长期以来一直处于领先地位。
NVIDIA CEO黄仁勋在近日的采访中首次公开承认,华为正在开发与NVIDIA高端产品水平相当的人工智能芯片和集群。
黄仁勋表示:“根据我们目前的最佳了解,华为的技术大概与H200相当。他们的发展速度非常快,还推出了名为CloudMatrix的AI集群系统,其规模甚至超过了我们最新的Grace Blackwell系统。”
黄仁勋还强调,华为是一家极具竞争力的科技公司,他们一直在寻找方法来参与竞争,并且实力不容小觑。
而在此之前,黄仁勋一直避免产品的直接比较,仅以笼统的说法称华为是“强有力的竞争对手”。
根据此前消息,华为的AI算力集群解决方案CloudMatrix 384,基于384颗昇腾芯片构建,通过全互连拓扑架构实现芯片间高效协同,可提供高达300 PFLOPs的密集BF16算力,接近达到NVIDIA GB200 NVL72系统的两倍。
影片
https://m.163.com/v/video/VTVQLQP14.html?spss=adap_pc
抓到謠言了
沒聽過黃仁勳說華為晶片已達H200水平
應該是說接近或媲美的客氣話
| 項目 | 昇騰 910C | H200 | 差距說明 |
| ------------- | ------------- | --------------------- | --------------- |
| **BF16 計算性能** | 約 800 TFLOPS | 約 1400 TFLOPS | 落後約 **40%** |
| **HBM 記憶體頻寬** | 3.2 TB/s | 4.8 TB/s | 落後約 **33%** |
| **架構** | 基於自研CANN/Cube | Hopper + HBM3e | NVIDIA 架構更成熟與高效 |
| **軟體生態** | 自主開發、局限在中國 | 完整 CUDA + TensorRT 生態 | NVIDIA 領先 |
| **能效比** | 較低 | 更高效率 | H200 能耗控制優異 |
hl4su3a8cl3 wrote:
抓到謠言了 沒聽過黃...(恕刪)
謠言嗎?
我們fact check 一下。
我用的是Perplexity,應該沒多少人認爲它找的資料不準確
“貌似Jason Huang (Nvidia的老闆)最近説過華爲的AI技術已經能跟Nvidia的H200差不多了,是真的嗎?
You ran out of Pro search
Upgrade to Perplexity Pro to increase your daily limit
貌似Jason Huang (Nvidia的老闆)最近説過華爲的AI技術已經能跟Nvidia的H200差不多了,是真的嗎?
dw.com favicon
dw
英伟达CEO警告美国国会:出口管制或反促华为AI实力提升 - DW
英伟达CEO警告美国国会:出口管制或反促华为AI实力提升 - DW
news.mynavi.jp favicon
news.mynavi
NVIDIA ジェンスン・フアンCEO、ファーウェイのAI技術は「かなり ...
NVIDIA ジェンスン・フアンCEO、ファーウェイのAI技術は「かなり ...
根据最新公开报道,NVIDIA(英伟达)创始人兼CEO黄仁勋(Jensen Huang)确实在近期的采访中首次明确表示,华为的AI芯片技术已经达到了与NVIDIA最新高端产品H200相当的水平。他指出:
华为的发展速度非常快,已经推出了名为CloudMatrix的AI集群系统,其规模甚至超过了NVIDIA最新的Grace Blackwell系统。
华为的AI算力集群CloudMatrix 384基于384颗昇腾芯片构建,采用全互连拓扑架构实现芯片间高效协同,能提供高达300 PFLOPs的密集BF16算力,这一算力接近甚至达到NVIDIA GB200 NVL72系统的两倍。
黄仁勋强调华为是一家极具竞争力的科技公司,实力不可小觑,且一直在积极寻找参与竞争的方式。
此外,黄仁勋还提到,由于美国对中国的高性能GPU出口限制,反而刺激了中国企业包括华为在内的自主研发和技术进步,缩小了与美国技术的差距。他特别指出华为的最新AI芯片性能“已经相当接近”H200。
总结来说,黄仁勋确实公开承认华为的AI芯片技术已达到与NVIDIA H200芯片相当的水平,这表明华为在AI芯片领域的技术实力已经非常强大,能够与NVIDIA的顶尖产品竞争。”
引用的是以下資料:
https://www.linkedin.com/posts/sarbjeetjohal_huawei-chip-is-probably-comparable-to-h200-activity-7333660250564108288-kreD
https://news.mynavi.jp/techplus/article/20250530-3340622/
https://www.eet-china.com/mp/a408954.html
https://www.3dmgame.com/news/202505/3920781.html
一共13個出處
另外根據Grok的結果,還有以下的資料鏈接:
https://theedgemalaysia.com/node/757197
https://www.mercurynews.com/2025/05/29/nvidia-ceo-warns-that-chinese-ai-rivals-are-now-formidable/
https://www.livemint.com/companies/jensen-huang-warns-of-chinese-ai-rivals-as-nvidia-loses-8-billion-sales-in-a-quarter-amid-us-export-curbs-11748495656505.html
基於以上,“黄仁勋首次公开承认:华为芯片性能已达H200级别,华为云架构可超越英伟达!”是不是謠言,讓大家評説吧。
hl4su3a8cl3 wrote:
抓到hl4su3a8cl3 wrote:
抓到謠言了 沒聽過黃...(恕刪)
華為昇騰910C:並行化能力與可擴展AI系統架構
I. 前言:AI運算中並行化的必要性
華為昇騰910C作為華為自主研發的關鍵AI處理器,在全球技術格局不斷演變,特別是國際出口管制日益收緊的背景下,成為中國推動技術自主戰略的核心組成部分。該處理器被定位為處理高強度AI工作負載的高性能解決方案。
在現代人工智慧領域,並行化(Parallelization)已不僅僅是一種選項,而是不可或缺的關鍵。大型人工智慧模型(如大型語言模型)的訓練以及複雜的推論任務,需要單一處理器無法提供的龐大運算能力和記憶體頻寬。並行化技術能夠聚合多個AI處理器(通常稱為GPU或加速器)的運算資源,將工作負載分佈到這些並行運作的加速器上,從而實現所需的性能提升,縮短訓練時間,並處理海量資料集。對這種基礎理解將有助於深入探討昇騰910C如何以及在多大程度上實現並行化。
本報告旨在回應關於昇騰910C並行化能力的查詢,並將提供一個多層次的解答。報告將從晶片本身的內部並行化設計開始,逐步深入探討其在單一伺服器和機櫃級系統中的整合,最終闡述其在大型超級運算叢集中的部署情況。報告將提供精確、有數據支持的數字,並解釋實現這些規模的底層架構和互連技術。
II. 昇騰910C架構:並行處理的基礎
雙晶片設計
華為昇騰910C在設計之初便考量了內部並行化,其創新之處在於採用了雙晶片(Dual-Chiplet)架構。這種設計將兩顆昇騰910B處理器整合在單一封裝內 。這種策略性整合有效地將處理能力和記憶體容量提升至單一910B單元的兩倍 。
這種雙晶片設計,特別是其省略了中央I/O晶片而依賴於兩個緊密耦合的運算晶片,與AMD Instinct MI250X和NVIDIA B200等其他高性能加速器所採用的先進架構趨勢保持一致 。這種設計選擇是華為實現更高性能的根本策略,代表了並行化的第一層次,即在晶片內部進行。這種務實的工程應對方式,很可能受到國際限制導致難以取得尖端單晶片製造技術的影響。透過利用晶片設計,華為能夠利用可能較不先進的製程節點,或整合來自不同來源的組件,有效地擴展性能和記憶體頻寬。這種基礎的內部擴展對於後續在伺服器和叢集層級的外部並行化至關重要。此外,910C還引入了先進的2.5D整合技術和優化的快取記憶體,進一步提升了機器內部的互連性能 。
關鍵規格
昇騰910C在FP16(半精度浮點)運算方面,能提供約800 TFLOP/s(每秒兆次浮點運算)的算力 。這相較於910B的280 TFLOPS 是一個顯著的飛躍,體現了雙晶片設計的優勢。在記憶體配置方面,每顆910C處理器整合了八個HBM2E(高頻寬記憶體2E)記憶體模組 。這種配置提供了高達3.2 TB/s(每秒兆位元組)的總記憶體頻寬 ,這對於在並行處理過程中向高性能運算單元提供數據至關重要。
整合式高速互連
為促進晶片內部以及系統中多個晶片之間的高效通訊,昇騰910系列(包括910C)整合了多種高速介面。這些介面包括HCCS(華為快取一致性系統)、PCIe(週邊組件互連高速)和RoCE(基於融合乙太網的RDMA) 。具體而言,RoCE v2提供了高達200Gbps的頻寬,這對於支援超大規模叢集至關重要,確保了節點之間的高吞吐量和低延遲數據傳輸 。
這些整合式介面,結合華為專有的叢集通訊庫和任務排程平台,旨在充分釋放多個昇騰訓練處理器在並行部署中的集體潛力 。詳細提及HCCS、PCIe,尤其是200Gbps頻寬的RoCE v2 ,突顯了華為設計理念中的一個關鍵理解:單純的原始運算能力如果沒有同樣強大和高效的通訊架構,將會大打折扣。在並行運算中,通訊瓶頸會嚴重限制系統的可擴展性和效率,抵消增加處理器所帶來的好處。RoCE v2「支援超大規模叢集」的明確聲明 表明,華為在設計這些互連時就考慮到了大規模並行化。這暗示了一種架構上的遠見,即網路被視為與運算單元同等重要且不可或缺的組成部分,對於在分散式AI工作負載中實現高線性度和性能擴展至關重要。
III. 伺服器與機櫃配置中的並行化能力
單伺服器配置
華為及其合作夥伴提供整合式解決方案,展示了昇騰910C在單一伺服器機箱內的實際並行化能力。其中值得注意的例子包括「昇騰DeepSeek一體機」和浪潮資訊(Inspur)的「海若一體機」。這些系統通常配置為支援8卡(入門級)和32卡(高端級)兩種設置 。這為從小型開發環境到更大型的本地部署提供了靈活性,以滿足各種運算需求。
一個具體的例子是浪潮資訊的NF5280M6型號,該型號明確指出配備了32張昇騰910C卡。這種32卡配置在INT8運算方面實現了令人印象深刻的8960 TOPS(每秒兆次運算)算力,同時功耗僅為8kW 。這展示了單一伺服器單元內可實現的高密度整合和效率。8卡(入門級)和32卡(高端級)配置的明確提及 並非隨意,它代表了模組化和可擴展的設計理念。這種方法使華為及其生態系統合作夥伴能夠滿足廣泛的市場需求,從預算有限的學術機構或小型企業,到需要大量本地AI能力的大型企業和數據中心。這種靈活性對於更廣泛的採用至關重要,尤其是在國內市場,存在多樣化的需求,並且尋求受限外國硬體的替代方案。此外,在單一伺服器中支援32張卡意味著高度優化的內部互連架構和供電系統,以確保這些高密度加速器之間的高效通訊和運作。
機櫃級部署
除了單獨的伺服器,昇騰910C還被設計用於整合到更大的機櫃級系統中。例如,華為旗艦級CloudMatrix 384系統的架構藍圖,就明確指出每個運算機櫃可容納32個加速器 。這表明單一機櫃可以容納大量910C處理器,形成一個密集的運算單元,然後可以跨多個機櫃進行擴展。
IV. 大規模AI叢集與超級運算解決方案:實現最大並行化
CloudMatrix 384:大規模並行化的旗艦系統
華為昇騰910C大規模並行化最明確且具體量化的例子是CloudMatrix 384系統 。該系統設計用於整合驚人的384個昇騰910C處理器。這個數字代表了所提供資料中識別出的最高具體並行化數量,直接回答了用戶關於可並行化GPU最大數量的問題。
CloudMatrix 384系統是一個機櫃級的AI解決方案,橫跨16個實體機櫃:其中12個專用於容納運算模組(每個包含32個加速器),另外4個機櫃則用於通訊交換和網路基礎設施 。CloudMatrix 384系統及其384個昇騰910C處理器 是華為「暴力擴展」(brute-force scaling)策略的典型範例 。這種方法,即華為透過「增加每個系統中的晶片數量來彌補」 個別晶片性能的潛在不足,是針對美國出口管制導致難以取得尖端半導體製造技術和NVIDIA等競爭對手的高性能晶片的直接且務實的應對。透過部署更多數量的自家加速器,即使它們在單個晶片層面不如絕對尖端產品那麼強大或高效,華為的目標是在系統層面實現具有競爭力的總吞吐量 。這項策略反映了國家層面實現技術自給自足的更廣泛要求,優先確保國內運算能力的可用性,以支援AI發展,而不論單晶片效率如何。
然而,這種策略也伴隨著在功耗效率方面的顯著權衡。多個資料來源一致指出,儘管CloudMatrix 384能夠實現高聚合性能,但其「每FLOP的功耗效率低2.3倍」 ,並且「總功耗約為559千瓦,而NVIDIA競爭產品的設置約為145千瓦」 ,導致其「功耗幾乎是四倍」 。這表明,儘管華為能夠提供所需的原始運算能力,但與更高效的國際替代方案相比,大規模部署的營運成本(電力、散熱基礎設施)將顯著更高。這對於數據中心營運商來說是一個重要的經濟和環境考量。
Atlas 900 AI叢集:超越機櫃規模
雖然其確切數量較不精確,但華為Atlas 900 AI叢集被描述為由「數千個昇騰訓練處理器」組成 。這個通用術語暗示了比單一CloudMatrix 384系統更大的並行化潛力,意味著能夠將多個機櫃級單元互連成一個超級運算基礎設施。Atlas 900叢集能夠提供256至1024 PFLOPS(每秒拍次浮點運算)的FP16性能 ,這表明其架構高度可擴展且靈活,旨在滿足各種極高性能目標。Atlas 900叢集「數千個昇騰訓練處理器」的重複提及 ,以及昇騰智慧運算中心的大規模部署 ,表明CloudMatrix 384系統,儘管其本身令人印象深刻,但很可能只是更大、更廣泛、甚至可能地理分散的超級運算基礎設施中的一個基本構建塊。這暗示了一種分層的擴展模型,其中多個機櫃級系統被互連以形成Exascale級的運算能力。這展示了華為不僅在單一伺服器或機櫃層面,而且在整個數據中心和國家AI運算網絡中,爭奪AI超級運算頂級地位的雄心。
策略部署與應用
華為對大規模AI基礎設施的承諾,進一步體現在湖南和貴州等地區昇騰智慧運算中心的規模化部署 。這些部署凸顯了這些高度並行化系統的實際應用。昇騰910C明確設計用於雲端環境和大型數據中心中的廣泛模型訓練和推論任務,支援無縫整合到可擴展的AI叢集和超級運算解決方案中 。這突顯了其作為國家AI計畫核心組件的作用。
以下表格總結了昇騰910C在不同配置下的並行化能力:
表1:華為昇騰910C並行化配置與最大GPU數量
配置類型 系統名稱/範例 昇騰910C處理器數量 關鍵互連技術 備註/情境
單伺服器 Inspur HaiRuo NF5280M6, 昇騰DeepSeek一體機 8卡 (入門級) / 32卡 (高端級) 內部高速互連 單機箱內高密度整合,8960 TOPS (INT8) @ 8kW (32卡配置)
機櫃級系統 CloudMatrix 384 (單一運算機櫃) 32個 (每運算機櫃) 光學網狀網路 單一機櫃內高密度運算模組
大型叢集 CloudMatrix 384 (完整系統) 384個 光學網狀網路 (5.5 Pbps) 橫跨16個機櫃 (12運算, 4網路),旗艦級AI超級運算系統
超級運算基礎設施 Atlas 900 AI 叢集 數千個 HCCS, PCIe 4.0, 100G RoCE 實現256-1024 PFLOPS (FP16),暗示可擴展至更大規模數據中心
以下表格比較了CloudMatrix 384系統與NVIDIA GB200 NVL72系統的性能和效率:
表2:昇騰910C系統的性能與效率比較
系統 加速器數量 總BF16/FP16性能 總HBM容量 總系統功耗 效率指標 (相對於NVIDIA GB200 NVL72)
華為 CloudMatrix 384 384 (昇騰910C) 約300 PFLOPs (BF16) 49152 GB (384 * 128GB) 約559 kW 每FLOP功耗效率低2.3倍 ;每TB/s記憶體頻寬效率低1.8倍 ;每TB HBM記憶體效率低1.1倍
NVIDIA GB200 NVL72 72 (NVIDIA GB200) 約180 PFLOPs (BF16) 13824 GB (72 * 192GB) 約145 kW -
註:HBM容量為基於單卡規格估算;性能和功耗數據來自引用資料,可能因測試條件而異。
V. 實現可擴展性的互連技術
光學互連架構
CloudMatrix 384系統能夠擴展至384個處理器,其關鍵在於其先進的「全光網狀網路」(all-optical mesh network) ,用於處理器間的通訊。這代表了一項重要的架構選擇,超越了傳統的銅基互連。該網路採用了令人印象深刻的6,912個線性可插拔光學(LPO)收發器 。這些收發器在整個叢集中建立高頻寬、低延遲的通訊架構中扮演著關鍵角色。
光學互連技術能夠在機櫃之間實現超過每秒5.5拍位元組的巨大頻寬 ,有效地將訊號損失和延遲降至最低。這種高吞吐量、低延遲的通訊對於大規模AI模型的有效分散式訓練絕對必要,因為訓練過程中需要在處理器之間快速交換大量數據。該系統設計支援透過這種穩固的光學架構實現水平(scale-out,增加更多機櫃/系統)和垂直(scale-up,在系統/機櫃內增加更多處理器)擴展 。CloudMatrix 384系統獨特之處在於其完全依賴光學技術進行機櫃內部和機櫃之間的連接,這相較於傳統銅線連接,實現了極高的聚合通訊頻寬 。在384個處理器橫跨16個機櫃的規模下,傳統的銅互連會引入顯著的訊號衰減、延遲和功耗,造成嚴重的瓶頸,從而削弱並行化的優勢。光學互連提供了卓越的頻寬、更低的延遲和更長的傳輸距離,使其對於在如此龐大的運算架構中維持高效通訊至關重要。這突顯了華為在系統級整合和設計方面的先進能力,展示了他們如何透過在系統和網路層面進行創新,來彌補潛在的晶片級限制(例如由於製造限制),以確保可擴展的性能。這是他們在大型AI領域的關鍵差異化優勢。
RoCE v2與網路效率
RoCE v2憑藉其200Gbps的頻寬,作為一項專為支援超大規模叢集而設計的關鍵網路技術脫穎而出 。其採用突顯了華為對AI高性能網路的重視。在RoCE網路中實施非均勻Bruck演算法,據稱可將叢集通訊效率提高50%,並將網路成本佔比降至20%以下 。這表明華為在優化性能和成本方面所做的努力。Atlas 900叢集整合了RoCE、PCIe 4.0和HCCS,據報導其叢集網路線性度超過80% 。這種高線性度是高效擴展的關鍵指標,意味著隨著處理器數量的增加,性能增益仍能保持較高的比例,通訊開銷最小化。
缺乏第三方GPU整合
明確指出華為的系統,特別是CloudMatrix 384,不與NVIDIA等第三方GPU進行整合或並行化 。這項架構決策強化了華為建立完全自給自足、獨立的國內AI硬體和軟體生態系統的總體策略。明確確認華為的系統不與NVIDIA等第三方GPU整合或並行化 ,有力地表明了華為的戰略意圖:在AI領域實現完全的技術自主。這項決定意味著華為正在積極構建一個完全獨立的生態系統,包括其專有硬體(昇騰晶片)、互連技術(HCCS、光學網路)和軟體堆疊(MindSpore/CANN)。儘管這可能會在初期面臨開發者採用方面的挑戰,因為與NVIDIA成熟的CUDA生態系統相比,其市場佔有率較低 ,但它從根本上確保了對外部出口管制的彈性,並促進了強大的國內供應鏈的發展。這是一項國家自給自足和在AI領域取得領先地位的長期戰略,而非透過互操作性來追求短期全球市場佔有率。
VI. 結論:昇騰910C在可擴展AI運算中的作用
華為昇騰910C,以其基礎的雙晶片架構設計,成為高度可擴展AI運算解決方案的強大基石。其並行化能力涵蓋多個層次:
單伺服器/整合式機器: 在高端配置中,能夠整合多達32張昇騰910C卡,如浪潮海若NF5280M6和昇騰DeepSeek一體機所示 。
機櫃級系統: 旗艦級的CloudMatrix 384系統明確展示了在16個機櫃中並行化384個昇騰910C處理器的能力,為單一整合叢集提供了具體的最大數量 。
大型叢集: 更廣泛的部署,如Atlas 900 AI叢集,被描述為互連「數千個昇騰訓練處理器」,表明其潛在規模甚至超越單一機櫃級系統 。
這些令人印象深刻的規模,關鍵在於先進的互連技術,包括HCCS、PCIe、200Gbps的RoCE v2,特別是大型系統中使用的具備高頻寬、低延遲的光學網狀網路 。
華為的「暴力擴展」策略,即在每個系統中部署更多數量的昇騰910C處理器,是應對外部先進半導體獲取限制的直接且有效的回應。這種方法使華為能夠實現具有競爭力的總體系統性能和吞吐量,即使單個晶片的效率可能落後於國際同行 。然而,這項策略伴隨著顯著的功耗效率權衡。華為的大規模系統在每FLOP的功耗方面,相較於領先的NVIDIA解決方案,表現出顯著更高的功耗 。這對數據中心部署來說是一個相當大的營運成本因素,需要強大的電力和散熱基礎設施。昇騰910C及其可擴展系統對於中國實現技術獨立和培育強大的國內AI生態系統,減少對外國技術的依賴至關重要 。
昇騰910C並行化能力的全面圖景,從其內部的雙晶片設計到CloudMatrix 384的廣闊光學網狀網路,揭示了華為深刻的戰略轉變。面對持續存在的先進晶片製造工藝獲取限制(例如910C由於較舊的光刻技術導致良率較低,約30% ),華為已將其創新重點從純粹的晶片級性能戰略性地轉移到複雜的系統級工程。透過優化互連、開發複雜的叢集架構以及採用「暴力擴展」方法,他們證明了即使單個組件的性能受到外部地緣政治因素的限制,也可以透過智慧的系統設計實現高聚合性能。這展示了他們在工程和戰略規劃方面卓越的韌性和適應性,使其成為應對供應鏈中斷的關鍵案例研究。
儘管本報告詳細闡述了硬體並行化方面,但華為MindSpore/CANN軟體生態系統的重複提及 是一個更廣泛但同樣重要的影響。任何並行硬體系統的最終有效性和廣泛採用,都與其軟體堆疊的成熟度和開發者支持密不可分。承認華為的軟體生態系統與NVIDIA佔主導地位的CUDA相比,「在採用和開發者支持方面落後」 ,突顯了一個重大的持續挑戰。然而,持續的投入,加上強大的政府支持和國內市場對替代方案的需求,表明華為正在進行一場長期博弈。這暗示,所討論的令人印象深刻的硬體能力,僅是更大、更具戰略意義的拼圖中的關鍵一塊,旨在從零開始建立一個完整、自給自足且具有競爭力的AI生態系統,其雄心不僅止於原始硬體,更要實現全面的AI領導地位。
展望未來,華為將繼續在昇騰系列中進行創新,例如即將推出的昇騰910D。儘管面臨諸如製造良率 和與CUDA相比軟體生態系統成熟度等持續挑戰,華為對硬體和系統級設計的持續投入,突顯了其在全球AI運算領域長期領先的承諾。
這是基於Gemini的深度探討得出的結果。
384顆還不是它的局限。如果有需要,可以異地部署,拆分繼續研究,這是基於全光纖系統的優勢。
用來生成報告的資料來源
hao.cnyes.com
華為昇騰DeepSeek一體機深度拆解 - 鉅亨號
在新視窗中開啟
buzzorange.com
【號稱地表最強】華為新AI 晶片「昇騰910」,效能超越NVIDIA 晶片2 倍| TechOrange 科技報橘
在新視窗中開啟
mobile01.com
華為將推7nm升級版AI晶片昇騰910C ~性能對標輝達H200! - Mobile01
在新視窗中開啟
tomshardware.com
Huawei Ascend AI 910D processor designed to take on Nvidia's Blackwell and Rubin GPUs
在新視窗中開啟
techpowerup.com
News Posts matching 'Ascend 910C' - TechPowerUp
在新視窗中開啟
technologymagazine.com
Huawei Targets AI Innovation with New Ascend 910D Chip | Technology Magazine
在新視窗中開啟
aimagazine.com
Will Huawei's New AI Chip, Ascend 910D, Rival Nvidia? - AI Magazine
在新視窗中開啟
bitrue.com
Huawei Ascend Chips vs NVIDIA: Which is more powerful? - Bitrue
在新視窗中開啟
huaweicentral.com
Huawei Ascend 910C alleged specs suggest it a tough rival to Nvidia H100
在新視窗中開啟
trendforce.com
www.trendforce.com
在新視窗中開啟
bitrue.com
What are Huawei Ascend Chips? Models and Specifications - Bitrue
在新視窗中開啟
ithome.com.tw
傳華為Ascend 910C晶片出貨在即效能媲美Nvidia H100 | iThome
在新視窗中開啟
idcsp.com
昇腾910B性价比如何?算力、价格与行业应用全对比 - 服务器托管
在新視窗中開啟
techwireasia.com
Nvidia chips out of reach, Huawei steps in with new AI processor
在新視窗中開啟
tomshardware.com
Huawei's new AI CloudMatrix cluster beats Nvidia's GB200 by brute ...
在新視窗中開啟
hiascend.com
AI Cluster-Ascend Community - 昇腾社区謠言了 沒聽過黃...(恕刪)
標題是講晶片
https://technews.tw/2025/04/28/huawei-910c-910d-nvidia/
晶片實際性能無法超過 NVIDIA,華為靠系統突圍
不過,雖然華為曾向客戶宣稱 910C 晶片的性能可與 H100 媲美,但實際使用過兩款晶片的工程師表示,華為晶片的表現仍不及 NVIDIA。此外,華為在大規模生產這類晶片上也面臨挑戰。目前中芯國際因無法購買最先進的晶片製造設備而受限,加上華盛頓禁止中國直接取得 HBM 等 AI 晶片關鍵元件。對此,華為高層表示,將重點放在打造更高效、更快速的系統,以充分發揮旗下晶片的效能,而不是單純追求個別晶片的性能提升。例如,華為 4 月推出 CloudMatrix 384 運算系統,該系統將 384 顆昇騰 910C 晶片互聯。
分析師指出,在某些情況下,該系統的性能甚至超越了輝達的旗艦機櫃系統,後者搭載 72 顆輝達最新的 Blackwell 晶片,但中國系統耗電量也較高。
業內人士指出,將大量晶片連接在一起並非易事,這需要穩定的網路連線,以及完善的軟體與工程技術來防止網路故障。研究機構 SemiAnalysis 在報告中指出,將五倍數量的昇騰晶片串聯,可彌補單顆 GPU 性能僅為輝達 Blackwell 晶片 1/3 的劣勢。儘管功耗不足值得注意,但在中國市場上並不構成真正的限制因素。
SemiAnalysis 認為,CM384 在多項關鍵指標上實現了對 NVIDIA 旗艦產品 GB200 NVL72 的超越,整體算力接近後者的兩倍。
事實上,華為已近六年前被列入美國貿易黑名單,該公司於 2023 年推出一款搭載國產處理器的高階智慧型手機 Mate 60,震撼外界。目前華為已成為中國 AI 代表企業,開發 NVIDIA AI 晶片的中國替代品,北京也努力培育自主半導體產業的一部分。
美國政府先前要求 NVIDIA 須獲得批准,才能將 H20 晶片銷售至中國,使 NVIDIA 第一季認列高達 55 億美元的相關費用。
矩陣是晶片的集合,可以用來比較晶片性能嗎
✅ 華為 CloudMatrix 集成系統超越 NVIDIA 的地方:
指標 華為 CloudMatrix(384 昇騰910C) NVIDIA NVL72(72 顆 GB200) 比較結果
總 BF16 算力 約 300 PFLOPS 約 180 PFLOPS ✅ 華為更高
系統規模(卡數) 384 張卡 72 張卡 ✅ 更大規模
模組設計 自主設計整機櫃、冷卻、管理系統 高度整合的 DGX、NVL 架構 雙方各有優勢
❌ 尚未超越 NVIDIA 的部分:
項目 華為 CloudMatrix NVIDIA NVL72 結論
晶片效能密度 單卡效能較低(需堆量) 單卡效能高(GB200 為雙芯超級晶片) NVIDIA 領先
軟體生態與兼容性 自研 CANN,缺乏國際大模型支持 完整 CUDA、支援各大框架 NVIDIA 領先
部署靈活性與能效 需較大空間與功耗 整合度高,效率佳 NVIDIA 優勢
🔍 總結回答:
✅ 在 系統規模與總算力 上,華為 CloudMatrix 可說超越現階段 NVIDIA 部分產品;
❌ 但在 單卡性能、能效比、軟體生態與部署成熟度 上,仍明顯落後。
所以,「超越」只能用於特定系統指標層面,不能代表全面領先。華為做得好,但 NVIDIA 依然是全球技術與生態領頭羊。
(384) 昇騰,超越了NVIDIA (72) GB200 ?
hl4su3a8cl3 wrote:
標題是講晶片 https...(恕刪)
如果以單一晶片做對比,別問,Nvidia大勝。
但是這有點像最近的印巴戰爭,勝利者不一定是先進者。
而是系統之間的戰鬥,就像是Blackwell單一拿出來很强,但是如果沒成爲cluster,結果就是超級大顆的5090.
畢竟製程工藝放在那裏,生態放在那裏。
可是現在是結果導向。
大陸最會的不是最先進製程(如J-10C vs. 陣風)
而是打群架以及相互配合
所以會説華爲已經到達H200的級別(請注意是級別)。
我一直在說這裏講的不是製程工藝,而是結果。
而且大陸的AI一直不是LLM導向,而是工業導向。
導致了大部分普通人低估了大陸5G A的能力以及大陸AI的真正能力。
就好像Nvidia很强,但是你讓它去做無人挖礦,無人造飛彈,無人造車試試看?
就連製藥現在老共也已經超越了老美,以前是老共求著人家買專利,現在反過來了。
根本就是風馬牛不相及的事情,但是老共就是能做到。
只能説各有千秋吧。
而且老共還有不能算是獨門吧,不過也算是絕活。
就是華爲系統可以拆分計算,分別在兩處平行計算同一個任務的不同部分,然後利用光纖直接匯總。這個蠻牛的。