
AMD XDNA 架構。
看完了 Zen 5 處理核心以及 RDNA 3.5 顯示核心架構的介紹後, AMD 緊接著端出近來很夯的 NPU XDNA 架構的介紹,在這次 Ryzen AI 300 系列處理器中,AMD 端出了新的 XDNA 2 架構,打造出目前市面上最高具備 50 TOPS AI 運算效能的 NPU 設計,搭配 Zen 5 處理核心以及 RDNA 3.5 顯示架構,讓使用者即便在筆記型電腦端,也能執行像是較為小型的 LLM 以及 SDXL/SD3.0 這樣的生成式 AI 運算。
更多 2024 AMD Tech Day 新架構發表請看:
【2024 AMD Tech Day】Zen 5 新處理器架構解析 透過微架構大幅升級 讓 IPC 效能提升 16% 迎戰 AI 世代需求
【2024 AMD Tech Day】RDNA 3.5 顯示架構解析 師法手機設計大幅提高低功耗效能表現
【2024 AMD Tech Day】Ryzen 9000 處理器解析 不僅性能提升 就連功耗與溫度設定也有感壓制
【2024 AMD Tech Day】Ryzen AI 300 處理器解析 以完整支援性、強大效能與多樣選擇提供消費者更好 AI PC 解決方案

這部分的主講者是 AMD 人工智慧部門的資深副總 Vamsi Boppana。

簡報一開始就強調 AI 是目前最重要、也是改變最劇烈的科技。而 AMD 在這部分從伺服器、個人裝置到邊緣運算都提供了 AI 的解決方案。

相較於其他技術,AI 模型與應用的多樣化特性,造就了不同的硬體需求,機器學習、神經網路,深度學習所需要/適合的硬體都不同,所以需要新的運算架構來符合各方面 AI 的運算需求。而因為延遲表現,安全性、隱私性的考量,有越來越多的 AI 應用將會在使用者機器上的本地端運作。

另外各種不同的 AI 應用,在模型大小以及推論頻率上的差異,也讓本地端的硬體架構需要面臨更大的挑戰。而 AMD 在這邊的解決方式,就是透過具備更強運算能力的 NPU,來提供本地 AI 運算更具能耗比優勢的架構。以上面簡報顯示來說,在同樣的 AI 運算效能中,NPU 比起 CPU 或是整合顯示晶片,有著最高 35 倍的能耗比表現,讓 AI PC 平台在執行 AI 運算時能夠更有效率。

這也是為何 AMD 在去年就推出了第一款 x86 架構具備整合 NPU 設計的 Ryzen AI 處理器(Ryzen 8000 系列),而在短短一年後,又推出了具備 50 AI TOPS 算力的新一代 XDNA 2 架構。

透過整合下一代的 Zen 5 處理器核心、RDNA 3.5 顯示架構以及 XDNA2NPU,這次 AMD 打造出了第三代的 Ryzen AI 處理器。

透過大幅提升的 AI 算力(由 10 TOPS 提升到 50 TOPS)以及與 150 家以上的 ISV 軟體廠商合作,新的 XDNA 2 架構提供了使用者在 AI PC 尚包括沉浸式的協作、革命性的內容創作與編輯、遊戲娛樂效果的加強、個人 AI 助理以及企業生產力等體驗的提升。

接著就進入到架構部分的環節。

Vamsi Boppana 表示從簡報圖中可以看到,跟其他採用傳統多核心設計的 NPU 相比(圖左),XDNA 2 架構(圖右)採用相當特別的資料流架構,採用雙向的陣列設計,提供相當智慧與彈性的交互連接配置,可以在執行運算時,透過軟體重新定義成客製化的運算與記憶體階層配置,對於多樣化的 AI 應用,比起傳統固定設計的 NPU,XDNA 2 可以提供更好的配置彈性。

以空間架構來看 XDNA 2 的架構配置,可以看到透過方塊化(Tile)的資料流架構搭配可程式化的交互連接設計,讓 XDNA 2 架構達成可彈性運作的分區配置,提供更有效率的多工處理以及即時的效能反應。

透過這樣的設計,讓 XDNA 2 較上一代在 AI Engine 單元數量上由 20 個提升到 32 個,每個 Tile 的 MACs 也增加到兩倍,內建記憶體也增加至 1.6 倍,也增強了對非線性處理的支援,整體 NPU AI 算力則是由 10 TOPS 提升到 50 TOPS(Int8 精度或是 Block FP16 精度)。

在更小型的 XDNA 2 架構介紹會議中,AMD 也更進一步的展示了 XDNA 2 架構的優勢。(這部分因為 AMD 並未提供簡報檔,以現場翻拍的畫面來呈現)

透過彈性的分區配置,可以讓 XDNA 2 架構依照需求以空間方式進行分區,像是在執行視訊會議增強時,可以將部分的 Columu 指定給即時影像增強、部分 Column 指定給即時聲音增強,其他部分則是指定給應用程式使用。而當應對像是 LLM 或是影片編輯這類需要較多 AI 效能輸出的應用時,則是可以依照時序來進行劃分,提供最大的 AI 執行效能。

另外跟先前 Ryzen 7040 系列的 XDNA 架構相比,XDNA 2 在運算容量上提升了 5 倍,提供最高 8 組空間串流處理能力,提升了多工的 AI 效能。另外透過 Column Based 的電源閘設計,可以在不用的時候關閉閒置的 Column,進而延長電池使用時間,整體來說在能源效率上提升了 2 倍。

除了硬體設計上的改變,這次 AMD 也推出了新的資料格式:Block FP16,具備 8 bit 資料格式的運算效能以及 16 bit 資料格式的運算精度,而且對於原先 FP16 訓練出來的模型,不需要再進行量化處理,就可以運用在終端裝置上,在筆記型電腦上進行 AI 效能運算可以更加降低效能負擔、提高運算效率。

可以看到跟 FP16 資料格式相比,在處理共用的 Exponent 的資料時,Block FP16 資料格式會將所有單元的 Exponent 在初始彙整成共享的 Exponent,將原本每個單元 16 bit 的資料容量縮減成 8 bit,進而縮小整體模型的大小來提升 AI 運算效能。而 AMD 人員也再度表示由 FP16 資料格式轉換成 Block FP16 資料格式,僅需要重新編譯,無須再度經過量化過程就可以使用。(不過實際如何還是要看每個模型的狀態不同)

AMD 也展示了 Block FP16 格式跟 FP32 在精度上的模擬差異,表示僅有些微的落差而已。

AMD 也展示了在不同資料格式下的吞吐量、模型大小以及運算精度,可以看到 Block FP16 的表現的確相當優異,但目前 Block FP16 也僅有 XDNA 2 支援,就看之後有多少 AI 模型以及 NPU 會支援這個獨特的資料格式了。

這邊當然不免俗的要來跟其他家的 NPU 比較一下,在等同於 Float 16 的設定下, XDNA 2 以 50 TOPS 的效能遙遙領先(在這邊 AMD 當然是用 Block FP16 格式來算 XD)。

在執行 7B 大小的 LLM 時,第三代 Ryzen AI 處理器的效能,在反應速度(產出第一個 Token 的時間)比起競爭對手要快了 5 倍。

當然 AI 運算更需要軟體廠商的支援, Vamsi Boppana 在簡報中也再度強調了 AMD 與微軟的深度合作,包括在生成式 AI、溝通與協作部分的 AI 模型,在 Co-pilot PC 上都可以運作。

另外在軟體開發層面的支援,AMD 也透過 Ryzen AI 軟體套件,提供 AI 模型開發者或是 ISV 廠商可以將原本的開發模型很快地對 XDNA 2 進行最佳化配置。

另外也透過完整、支援開源平台的 AI 軟體 Stack,整合了函式庫、編譯器、 AI 負載劃分以及最佳化工具,讓ISV 軟體廠商或是應用程式開發者,可以很快地推出在 AMD Ryzen AI 架構上提供更好服務的應用。

最後 Vamsi Boppana 則是表示透過領先業界的 XDNA 2 架構,AMD 打造出了目前同級產品中效能最好的 NPU,搭配自家 Zen 5 處理核心以及 RDNA 3.5 顯示核心,可說是目前業界中的領先產品組合。並且也與 ISV 廠商合作,提供更好的 AI PC 體驗。
至於在實際 AI 性能的展示部分, AMD 則是在一旁的展示區內展示了搭載 Ryzen AI 9 HX 370 處理器的各款筆記型電腦,直接透過實際體驗來檢視 XDNA2架構的效能表現:

像是這款微星推出的 Stealth A16 筆記型電腦,就可以在上面運作 LMStudio 軟體,直接在筆記型電腦上執行聊天機器人運算。

另外同樣也是微星 Stealth A16 筆記型電腦,則是展示了透過 Amuse 2.0 圖像生成軟體,可以進行文生圖、圖生圖等生成式 AI 運算,而且生成的速度相當快:

另外一台華碩的 Zenbook S16 筆記型電腦,也同樣展示了 Amuse 2.0 應用,不過展示的是手繪生圖的功能。

同樣也是華碩的 Zenbook S16 筆記型電腦,不過這台展示的是利用 NPU 執行 SDXL- Turbo 的生成圖片效能,陳拔也拍攝了一段影片給大家參考:
可以看到在進行圖片產生時,幾乎都是使用 NPU 進行運算,透過這樣來減少筆記型電腦的電力消耗,並且釋放 CPU 與 GPU 的資源來讓其他工作可以繼續進行。

另外這台華碩的 Vivobook 則是展示了 Topaz Labs 的 Gigapixel 7 來對圖片進行解析度的提升。

在更進階的影片創作 AI 應用部分,則是展示利用華碩 ProART P16 使用 Davinci Resolve Studio 新版的 19 預覽版,透過魔術遮罩功能自動進行人物或特定區域的選取與追蹤功能,讓創作者能夠更加節省時間。