
Arm Lumex CSS 平台 CPU 架構詳解。
在上午的公開發表活動後(請見:手機平板免聯網就能算 AI!Arm 推出新一代 Lumex CSS 平台打造更好用的隨身 AI 裝置!),這次在 Arm 上海 Unlocked 活動的下午,則是針對參加活動的媒體進行更深入的 Lumex CSS 平台的架構簡報,主要針對 CPU 跟 GPU 以及軟體架構的部分進行更詳細的說明,這部分就先來看看這次 Lumex CSS 平台的最主要特色:CPU 的部分。
更多 Arm Lumex CSS 架構介紹請見:
手機平板免聯網就能算 AI!Arm 推出新一代 Lumex CSS 平台打造更好用的隨身 AI 裝置!
Arm 展示新一代 Mali G1 GPU 設計 提供手機更強遊戲光線追蹤顯示效能

這部分主要是由 Arm 的終端事業部產品管理副總裁 James McNiven 跟終端事業部產品管理總監 Ronan Naughton 進行簡報,圖片裡是 James McNiven。

Arm 終端事業部產品管理總監 Ronan Naughton。
不過因為現場參加的中國媒體真的很多,然後陳拔又被安排到最後一排的座位(因為當天下午就趕飛機回台灣了),簡報最下方的字都被前面的媒體擋住了,所以下面的簡報內容就先用 Arm 官方提供的簡報來解說,在這邊先跟大家說聲抱歉。

首先 James McNiven 在簡報一開始就來講 Arm 架構在 2024 年的進展,除了原本的行動裝置應用外(像是聯發科的天璣系列處理器、針對 Chromebook 設計的 Kompanio 處理器外,比較引人關注的就是 NVIDIA 推出的小型超算:DGX Spark 中的處理器也是採用 Arm 架構。

而這次 Lumex CSS 平台的推出,更是瞄準了未來運算產品的需求,在效能/能效比、裝置 AI 以及可擴展性上面都有新的設計推出。

接著來看這次 Lumex CSS 平台在 CPU 叢集上的設計,取代了先前的 Cortex-X 系列與 A 系列核心,統一命名為 C1 系列,並且依照規模上的不同,分為 C1-Ultra、C1-Premium、C1-Pro 以及 C1-Nano 四個產品,讓硬體廠商可以依照自己產品的需求,組合成不同的 CPU 叢集配置。而這次新增的 SME 2 功能,則是適用在所有等級的核心上,換句話說在未來使用 Lumex CSS 平台的處理器,不管是高階或是中階,甚至是入門等級,都能有具備 AI 運算的效能(算力多寡還是有差別啦),在過去會因為等級不同而閹割 AI 功能的情況應該會有所改善,不過這部分仍然要看硬體廠商實際的配置而定。
而 Arm 在這部分也再度強調了 SME 2 功能所帶來的 AI 效能提升,比起先前要提升 5X 的 AI效能,而在能源效率部分也提升至 3X。此外在基礎的 DSU 部分也針對功耗部分進行最佳化,最高可節省 26% 的日常使用功耗,另外也具備支援不同裝置設計的擴展性。

而這次新的 C1 CPU 叢集提供 15% 平均效能提升,在能源效率上有 12% 的省電幅度,至於在 GeekBench 的效能跑分上,則是有 30% 的平均增幅。

Arm 這邊再度強調自家產品設計在 AI 應用上的優勢,包括針對行動裝置設計、開發者友善、具備足夠的 AI 效能、本機端處理所具備的低延遲跟安全性特色等等。

另外也闡述了這十年來 Arm 在處理器 AI 架構上的發展,從 Armv8-A 架構的 Cortex A72/A53 就開始將 AI 所需的運算效能導入到 CPU 架構中,到了今年的 SME 2 則是支援了更多資料格式、具備更高的效能、能源效率以及吞吐量。

而跟上午的簡報一樣再度強調了這次 SME 2 功能在 AI 負載的效能提升幅度,不過這次加入了實際的數據呈現,可以看到在延遲、編碼、生成時間部份都有很大的效能提升。

也利用靜態簡報來講述 SME 2 可以在手機上做到那些功能(主要都是以中國的應用,如阿里或是淘寶為例),陳拔感到比較有趣的是最右邊的以圖找物的功能,可以利用手機鏡頭拍攝想買的產品照片後,以 AI 辨識並且在購物網站中自動進行尋找,想是在街上看到其他人背的包包很喜歡,就可以利用手機拍照辨識後,就能在購物網站上找到同樣的包款購買。(這功能真的對腦波弱的人殺傷力很強阿)。

接著由 Arm 終端事業部產品管理總監 Ronan Naughton 針對 CPU 核心效能部分做更詳細的解說,這次 Lumex CSS 上面的 C1 系列核心,主要在 IPC(instrcutions per cycle)效能上做出更顯著的提升,可以看到在每年的核心更新中,IPC 效能都有雙位數的增加。

在主打旗艦手機處理器的 C1-Ultra(取代 Cortex-X925),在峰值效能上有 25% 的提升,而在同樣的效能設定下,C1 系列則是有 28% 的能耗節省。

而這次 Arm 也針對越來越多的『次旗艦』產品,推出了 C1-Premium 這個新級距,透過減少向量單元、L2 快取、最佳化布局來節省晶片設計面積,比起上一階的 C1-Ultra 減少了 35% 的晶片面積,而跟 C1-Pro 相比則是多了 35% 的單執行緒效能。

而在針對主流市場的 C1-Pro(取代 Cortex-A725)部分,Arm 表示跟 A725 相比,在一般日常應用中,C1-Pro 在同樣時脈下能夠提升 16% 效能,而在同樣的效能設定下,則是可以提高 12% 的能源效率。

而在 GeekBench 效能測試跑分中,在同樣的功耗設定下,C1-Pro 比起 Cortex A725 具備 11% 的效能提升而,而在同樣的效能設定下,則是比 A725 要省電 26%。

另外 C1-Pro 核心也提供了針對核心使用面積進行最佳化設計的版本,也在 GeekBench 以及 Spec2K17 的效能測試中,比起前一代的 Cortex-A720 AO 有更好的表現。

而針對更小型的行動裝置,Arm 這次則是透過 C1-Nano 核心提供更具能源效率的小核心設計,比起前一代的 A520 在能源效率部分提升 26%、在核心面積縮小 2%、SPECint2017 效能測試提升 5.5%,另外在分支預測效率部分也提升了 10% 。

另外作為核心互聯基礎的 DSU 部分,在這次的 Lumex CSS 中也採用新的 C1-DSU 設計,除了持續提供可擴展性的架構外,在整體功耗部分降低 17%,快速喚醒記憶體的功耗也降低 7%。

至於在核心的組合配置部分,Arm 也提供了從 2 顆 Nano 到 2 顆 Ultra+6 顆 Pro 的選擇,提供硬體廠商從低成本到旗艦產品不同的核心效能解決方案,不過要支援 SME 2 就需要從 4 顆 Nano 的配置起跳了。

Arm 在簡報中也再度展示了改用新的 C1 處理器核心後,主流行動裝置(手機)處理器的效能差異,可以看到跟上一代的 A725+A520 核心產品相比,這次 C1-Pro 跟 C1-Nano 在單核心效能部分有 11% 的效能提升,在多核心部分則是有 6.5% 的效能增幅,在能效比部分有 26% 的提升,而且在運算密度上則是有 2 倍的增加,對於寸土寸金的行動裝置內部空間,Lumex CSS 架構能提供更有彈性的設計空間。

這個階段簡報的最後則是再度展示了這次 C1 核心系列的產品特色,包括 25% 的單核心效能提升、16% 的遊戲效能提升、12% 的能效比提升、5X 的 AI 效能以及 3X 的 AI 能效比。
下一篇則是針對這次 Arm Lumex CSS 解決方案的新 Mali-G1 Ultra GPU 設計,就請大家接下去看吧。