
今年 NVIDIA Computex Keynote 以『i am ai』為開場。

皮衣刀客,不,是 NVIDIA 創辦人暨執行長黃仁勳上台啦。

加速運算以及生成式 AI 可說是今年 NVIDIA 在高階硬體發展的兩大主軸。

NVIDIA 表示整體 AI 架構包括硬體、系統軟體,加速函式庫、平台到應用程式框架,都需要高度的整合與協作。

而 NVIDIA 在這部分就透過加速運算提供的強大效能,從開發者、終端使用者、硬體/雲端製造商到 AI 模型開發/加速,成就更良性的循環。

這些年透過 NVIDIA 加速運算效能所得到的成績。

既然提到加速運算,就要來過去比較一下,NVIDIA 列出了在目前能夠提供一組 LLM 進行模型運算的超算單元,需要 960 顆 CPU/11 GWh 的功耗才能達成。

而同樣的預算,改採用 GPU 架構伺服器後,就僅需要 48 顆 GPU/3.2 GHw 功耗,而且還可以執行 44 組 LLM 模型運算。

換成若是同樣的功耗,採用 GPU 架構可以打造出具有 172 顆 GPU 的運算系統,LLM 模型的運算數量則是達到 150 倍。

若是需要 1 組 LLM 模型的運算量,換成 GPU 架構的話只需要 2 顆 GPU 的伺服器就可達成,不僅花費更低.功耗更是僅有 0.1 GWh,對於未來更講求控制耗電量的資料中心來說,採用 GPU 架構更有優勢。

NVIDIA 創辦人暨執行長黃仁勳在簡報中所提到的資料中心的成本架構,除了建構的成本外,包括電力、生命週期、使用率等更是資料中心伺服器營運成本的重要因素。
接著就是 NVIDIA 開始秀肌肉的時候,首先登場的是對傳統 CPU 架構伺服器提供加速運算效能的 HGX 100.透過以高速互連技術整合最多 8 顆 GPU H100 Tensor 核心 GPU,並且最高提供 640 GB 的 GPU 記憶體和每秒 24 TB 的彙總記憶體頻寬,可達到最高 32 petaFLOPS 效能,成為世界上最強大的人工智慧與高效能運算可擴充加速伺服器平台。

NVIDIA HGX H100 伺服器。

NVIDIA 創辦人暨執行長黃仁勳在現場展示了 4 顆 GPU 單基板配置的 HGX H100。

不過光是 HGX H100 其實還不夠,NVIDIA 創辦人暨執行長黃仁勳在 Keynote 中再度強調目前正是人工智慧迎來爆發性成長的 iPhone 時刻,包括文字、語音、圖片、3D、影片、DNA、蛋白質、分子運算、動畫設計等應用,都會在生成式人工智慧的輔助下有更快速的進展,NVIDIA 也在會場 Demo 一連串的 AI 應用,包括文字轉歌曲、文字轉虛擬人像講話等,NVIDIA 創辦人暨執行長黃仁勳也在會場進行 Demo。

在 Google Text to Music 模組輸入以上指令,結果就是:

在 VoiceMod 的 Text to song 模組輸入以上指令,結果就是:

也可以在 SYNTHESIA 這個 Text to Actor 虛擬演員的模組輸入指令,輸出結果就會是這樣:

生成式人工智慧的出現,可說是繼 PC、Internet 網路、Mobile-雲端後,另一個運算世代的到來。

所以 NVIDIA 在這個時候,自家最強的 GH200 GRACE HOPPER 超級晶片也已經開始量產,作為驅動生成式 AI 的引擎,透過 72 顆 Arm 架構核心的 NVIDIA Grace CPU 搭配 H100 Tensor 核心 GPU 整合在一個模組內,提供 4 PetaFLOPS TE 的運算效能。

不管在 VectorDB、DLRM 深度學習建議模型或是 LLM 大型語言模型等,GRACE HOPPER 超級晶片比起 x86 CPU 架構,甚至是 x86 CPU+H100 架構,在生成式 AI 的效能表現上都有大幅度的成長。

而在 EDA、SDA 等領域,NVIDIA 也將跟這個業界的領導者 Cadence 合作,提供更好的加速運算模型。

而將 256 組 GRACE HOPPER 超級晶片透過 NVIDIA NVLink 網路技術彼此連接,NVIDIA 還打造出一台具備 1 exaflop 效能、144 TB 的共享記憶體設計的 DGX GH200。目前已經有 Google Cloud、Meta 與微軟等客戶採用,開發人員可以用它來開發用於生成式人工智慧聊天機器人的大型語言模型、用於推薦系統的複雜演算法,以及用於偵測詐欺及資料分析的繪圖神經網路。

至於針對規模沒那麼大的用戶,NVIDIA 則是推出 MGX 架構,透過模組化的設計來滿足各種不同規模需求的資料中心,系統製造商可以透過模組化的架構,使用通用架構及模組化的零組件來建構 CPU 架構和加速運算伺服器,適用各式氣冷式及液冷式機箱,並且支援 NVIDIA 的全線 GPU、CPU、資料處理單元(DPU)及網路卡,以及 x86 和 Arm 架構處理器,讓系統製造商能快速以成本效益的方式開發出百種以上的伺服器配置,以應對客戶不同的 AI 運算需求.雲達科技與美超微將率先在八月推出採用MGX設計的機型,另外包括永擎電子、華碩、技嘉與和碩聯合科技也將使用 MGX 來打造下一代加速運算電腦。