
NVIDIA GeForce RTX 50 系列 Founder's Edition 創始板顯示卡,由左到右分別是 RTX 5070、RTX 5080 與 RTX 5090。
這次陳拔應 NVIDIA 邀請前往美國 CES 展,除了參加 NVIDIA 公開的 Keynote 發表會外,其中還有一天參加了 NVIDIA 針對技術編輯所舉辦的 Editor Day(也就是上課....),由 NVIDIA 官方人員更進一步的詳細介紹這次 RTX 50 系列顯示卡的架構,包括這次新的 RTX Neural Rendering 神經渲染技術、Blackwell GPU 架構、RTX AI PC 相關功能、生成式 AI 在遊戲方面的應用、RTX Blackwell 對於內容創作效能的加強、GeForce RTX 顯示卡的介紹等等,這篇就先從 RTX Neural Rendering 神經渲染技術以及相關應用功能開始看吧。
更多 NVIDIA RTX 50 顯示卡技術介紹:
NVIDIA 新一代 RTX Blackwell 顯示架構解析 以 AI 最佳化設計提供更有效率/效能表現的顯示核心
NVIDIA GeForce RTX 50 桌上型顯卡全系列官方設計與性能解析 不僅效能翻倍 散熱設計也大幅改造
RTX Neural Rendering 神經渲染技術
首先來看這次作為 RTX 50 系列顯示效能提升的核心:RTX Neural Rendering 神經渲染技術。在功耗、發熱、晶片面積的限制下,晶片上的電晶體數量不可能無止盡的持續以倍數的速度增加,而在接近後摩爾定律時代,要怎麼在有限的電晶體數量上持續提升效能表現,導入 AI 來持續增加效能表現,就是目前 NVIDIA 在 RTX 50 系列顯示卡上的做法。

首先講到在顯示卡生成畫面的基礎:Shader 渲染器部分、從 2001 年 NVIDIA 推出自家首款 GeForce 3 可程式化渲染器之後,隨著顯示 API(主要是 DirectX)的不斷更新,一代代的 Shader 加入了更高階 API 的支援以及光線追蹤功能,不過仍然屬於可程式化渲染器的形式。而到了今年 2025 年 則是迎來了重大變革,NVIDIA 將 Shader Core 跟 Tensor Core 整合成 Blackwell Neural Shaders 神經渲染器,透過神經網路的計算在紋理、材質、數量、光線效果上,做出另一個層次的提昇。

Blackwell Neural Shaders 神經渲染器所包含的內容。

RTX Neural Shader 渲染器的程式化流程示意,可以看到在遊戲開發階段後已經固定的程式化的渲染器,在 RTX Neural Shader 架構下,開發者仍可以透過在裝置端持續訓練的設計,提升遊戲的表現,而遊戲 API 的主力:微軟的 DirectX 也將在新版本中提供對應的支援,讓遊戲開發者可完整發揮 RTX Neural Shader 全加速效能。


另外在光線的處理部分,Neural Shader 則是則是透過即時的自我學習網路,在間接光線路徑以及強度上都有更逼真的表現。

而結合了材質以及光線處理的效果提升後,在遊戲中角色的皮膚紋理上都有更逼真(現場實際看影片還蠻噁心的



既然提到了遊戲中的角色,這次 NVIDIA 也提供了在遊戲中更好生成 NPC 角色臉譜的 RTX Neural Faces 技術,透過預先在超算機器上進行訓練的表情、光線/情緒/遮蔽效果模型,導入到遊戲引擎內與生成的遊戲角色臉譜/姿勢資訊,透過 AI 模型推論出更逼真的遊戲角色呈現。

另外在人物特徵中最容易被注意到的頭髮,過去要針對這部分進行光線追蹤計算需要花上相當大的效能,光是一個男性角色的頭髮就需要切分成 600 萬個三角形進行計算。

而在 Blackwell 中改為以線性滑動球體計算方式,可以大幅減少所需要的計算量,跟先前相比僅需要 1/3 以下的資料量,減少顯示記憶體的需求,並且提高遊戲的顯示幀率表現。

另外隨著遊戲精細度的提升,遊戲畫面中幾何圖形的計算量也增加得相當快速,NVIDIA 官方舉例了 1995 年發行《VR 快打 Remix 版》(看到那個方塊狀的肌肉真的很讓人懷念


- 單一三角形計算
- 以叢集為基礎的幾何計算
- RTX Mega 幾何計算
可以看到透過叢集化以及快取壓縮的設計,在過去需要一個個算 BVH 的所需要的效能,在 RTX Mega 幾何計算中,可以搭配像是 Unreal 引擎中的 Nanite 技術,以 LOD 的方式來減少三角形的繪製量,但是又保持整體物體的精細度。其實現場 NVIDIA 也有透過影片展示新技術的效果,那個差異效果真的很大。
講完了硬體與計算方面的改變,接著就來看到這次的主角:Neural Rendering 神經渲染的部分,大家都知道硬體的效能有限,而對於顯示卡來說,就需要在影像品質、畫面顯示幀率、以及反應速度這三個面向作出選擇,就像這樣:

如果你只有一顆 GPU 的話,就要在影像品質、畫面顯示幀綠、反應速度三者上做出取捨,如果追求的是 4K 解析度,那麼顯示幀率、反應時間的表現就會不好。

若是追求顯示幀率與反應時間的話,那就要降低解析度。

若是要三個面向都達成,傳統的做法就是增加 GPU 的數量。

不過 NVIDIA 選擇了另一條路,透過 RTX GPU 加上 AI,提供等同於使用多張顯卡的效能表現。

而推出的應用技術就是大家熟悉的 DLSS 深度學習超高取樣功能,從 2019 年推出到現在,已經有超過 540 款遊戲以及應用程式運用這項功能,超過 80% 的 RTX 顯示卡玩家會使用 DLSS 來加速遊戲顯示效能表現。

而在這六年期間,DLSS 也不斷進化,到這次推出的 DLSS 4,將過去使用的卷積神經網路模型(CNN Model)轉變成為視覺轉換模型 (Transformer Model),提供了過去提高 2 倍的參數量以及 4 倍的計算量,提供更好的影像品質,NVIDIA 也展示了在 CNN 模型與 Transformer 模型間的光線重構以及解析度增強畫面品質差異(點擊可看大圖):
- 光線重構
- 解析度提升
另外在增加幀數的幀間生成(Frame Generation)技術部分,這次 NVIDIA 在 DLSS 4 中加入了可生成更多 AI 幀的 Multi Frame Generation 技術,透過在 Blackwell 的顯示引擎中加入了新的 Flip Metering 設計,在進行幀間生成的時候提供穩定的每幀輸出時間,在先前的 DLSS 3 ,這項工作主要由 CPU 來執行,但是在表現上就會比較不穩定,而在導入了 Flip Metering 的 BlackwelI 上,就能夠以穩定的幀間輸出時間插入多張 AI 生成幀。
另外在 AI 畫面生成幀的部分,在 DLSS 3 中主要透過 Optical Flow Accelerator 光流加速器在分析遊戲畫面中的運動向量數據去生成下一幀,而在 DLSS 4 中,將原本的 Optical Flow Accelerator 光流加速器更改為新的 AI 模型,可以針對傳統渲染出的畫面生成更加整體的光流場(Optical Flow Field),可以更有效率以及更精確的生成多個 AI 畫面生成幀。而這次 Blackwell 所搭載的第五代 Tensor Core 也提供了上述 AI 模型所需的更強大運算能力,可以讓 RTX 50 系列顯示卡在開啟 DLSS 4 Multi Frame Generation 功能時,能以一張傳統渲染畫面生成出另外 3 張 AI 生成幀,提供更流暢的遊戲畫面。

DLSS 3 的幀間生成流程。

DLSS 4 的 Multi Frame Generation 多張生成幀流程,可以看到在軟硬體架構上都有所不同。

而在搭配原本的 Super Resolution 解析度放大技術後,在開啟 DLSS 4 時,其實只有螢幕畫面呈現的 1/16 畫素是由遊戲引擎所渲染出來的。

另外前面提到的 Flip Metering 設計,則是提供比起原本 CPU 控制時更穩定的畫面輸出時間,這也讓先前大家一直在質疑的開啟了 DLSS 後遊戲延遲時間變高的狀況得到了改善,可NVIDIA 也在現場展示了開啟 DLSS 4 後,在《Cyberpunk 2077》(電馭叛客 2077)中的遊戲畫面表現:

可以看到隨著 DLSS 代數提升,畫面顯示的幀數增加,但是顯示延遲時間並沒有因此提升,甚至比傳統不開啟 DLSS 功能時還要低。

NVIDIA 也展示了更多使用 RTX 5090 顯示卡上開啟 DLSS 4 之後的遊戲效能表現,可以看到跟 DLSS 關閉時相比,開啟 DLSS 4 最高可獲得 8 倍的遊戲顯示幀數。

而在支援的遊戲部分,NVIDIA 表示在發表當日就會有 75 款遊戲與應用支援 DLSS 4 功能,而更多的支援遊戲/應用程式也在路上了。

而 DLSS 4 的功能將會由 NVIDIA App 中來開啟,玩家可以針對每個遊戲進行將 DLSS Multi Frame Generation、DLSS Super Resolution 以及 DLAA 這三個功能設定為最新的 Override 設定,就可以體驗到最新的 DLSS 技術威力。
不過因為 DLSS 4 需要新的硬體來配合,所以在 Multi Frame Generation 的部分就僅有 RTX 50 系列顯示卡支援,但是包括增強版的 DLSS 幀間生成、光線重構、超級解析度縮放以及 DLSS 反鋸齒功能等,依照硬體配置不同支援了包括 RTX 40/30/20 系列的顯示卡,大家可以參考一下下面 NVIDIA 整理出來的表格:(點擊可看大圖)

而先前提到這次的 DLSS 4 功能並不會針對顯示延遲有太大的影響,而在使用者的操作延遲部分,這次也透過新推出的 NVIDIA Reflex 2 功能,加入了 Frame Warp 技術來增加 75% 的反應速度。

傳統的遊戲操作反應流程是這樣的,滑鼠(輸入設備)觸發訊號後,會先傳到 CPU,然後進入渲染序列,接著到 GPU 渲染畫面,然後傳送到顯示器來顯示,整體的延遲時間大約是 56 毫秒。

而在先前 NVIDIA 推出的第一代 Reflex 技術時,主要加強了 CPU 與 GPU 的同步率,減少了渲染序列的等待時間,來減少 50% 的延遲時間。

而在這次推出的 Reflex 2 技術上面,除了延續上一代的 CPU/GPU 同步減少渲染序列外,新的 Frame Warp 技術也會同時由 CPU 取得最新的滑鼠游標位置訊號,針對前一幀畫面進行色彩與深度的資料的分析,推算出下一幀滑鼠游標位置,傳送給顯示器來顯示,達到更短的延遲時間效果。(算是一種預測吧....)

而 NVIDIA Reflex 2 技術將會先由《THE FINALS》(最終決戰)跟《VALORANT》(特戰英豪)這兩款遊戲率先導入,至於硬體部分 NVIDIA Reflex 2 技術將會適用於所有 RTX 顯示卡,不過將會率先從 RTX 50 系列開始導入。
接下來陳拔還會針對 Blackwell GPU 架構、RTX AI PC 相關功能、生成式 AI 在遊戲方面的應用、RTX Blackwell 對於內容創作效能的加強、GeForce RTX 顯示卡進行相關介紹,慢慢上菜囉。