Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
接著來看這次 Panther Lake 處理器的 NPU 設計,採用新的 NPU 5 架構,主要設計目標是進行能效最佳化以及不同應用間的穩定表現,這部分仍然由 Intel 架構、圖形和軟體院士 Tom Petersen 負責講解。

更多 Intel ITT 2025 文章:

總覽:
Intel 反攻號角吹響?Tech Tour 2025 活動展示 18A 製程、Fab 52 晶圓廠、以及最新筆電 Panther Lake 處理器!

Panther Lake 處理器整體架構解析
Intel ITT 2025:Panther Lake 處理器整體架構解析 以自家 18A 製程達成高效能低功耗的平衡表現
Intel ITT 2025:Panther Lake 處理器架構解析 CPU 篇:同時具備電池續航力以及效能表現怎麼辦到的?
Intel ITT 2025:Panther Lake 處理器架構解析 GPU 篇:採用最新 Xe 3 架構的 12 核心內顯登場!
Intel ITT 2025:Panther Lake 處理器架構解析 IPU 篇:以整合設計提供更清晰真實的視訊畫質

18A 製程
Intel ITT 2025:以 RibbonFET 與 PowerVia 組合 18A 製程重回頂尖晶圓製造能力

Fab 52 晶圓廠參訪
Intel ITT 2025:最新 Fab 52 晶圓廠參訪 一探 18A 製程的先進製造基地

AI 發展策略
Intel ITT 2025:迎接 Agentic AI 時代到來!新 Intel 正在加速趕上

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
同樣先來回顧一下上一代的 NPU 4,具備 12 組增強的 Shave DSP、6 組神經運算引擎、能效最佳化的 Mac 陣列等等,提供最高 48 TOPS 的 AI 算力。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
而這一代的 NPU 5 設計目標,就是在 NPU 4 的基礎上擴大應用到更多裝置,另外針對最新的工作負載以及面積效率進行最佳化。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
首先在面積效率的部分,這次 NPU 5 重新設計了 MAC 陣列,將 NPU 4 中兩個神經運算引擎切片整合成一個,具備更大的 MAC 陣列,雖然說看起來神經運算引擎的數量減少了,但是每個引擎內 MAC 陣列卻是擴大的,可以容納更大的矩陣乘法運算,是 NPU 4 的兩倍以上,Tom Petersen 表示這樣的設計比起 NPU 4 來說更有效率。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
而擴大到處理器的 NPU 設計來看,在 Lunar Lake 處理器的 NPU 4 具備了 6 組神經運算引擎,而 Panther Lake 處理器的 NPU 5 則是具備了 3 組神經運算引擎,但是 Panther Lake 處理器的 NPU 5 卻具備了比起 Lunar Lake 處理器 NPU 4 更高的 50 TOPS 算力,而且佔用的晶片面積更小。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
實際上 Panther Lake 處理器 NPU 5 的主要規格,包括具備 3 組神經運算引擎、12K MACs 陣列、4.5 MB 的快取、6 組 Shave DSP 以及 256 KB 的 L2 快取。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
跟 Lunar Lake 處理器的 NPU 4 相比,在單位面積的 TOPS 數量提升了 40% 以上(SoC 上真的寸土寸金啊)。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
接著來看針對最新工作負載的最佳化設計部分。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
前面有提到這次 NPU 5 加大了單個神經運算引擎的 MAC 陣列,可以在每個 Cycle 中執行 16x16x16 的 int8/FP8 運算或是 16x16x8 的 FP16 運算。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
這次 NPU 5 也原生支援了 FP8 資料格式,可以在不需較高資料精度的運算下提供 2 倍的吞吐量、減少記憶體的需求,降低運算時的功耗。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
在同樣運算 Stable Diffusion 應用的情形下,NPU 5 在使用 FP8 資料格式的設定下,比起 FP16 僅需要 70% 的運算時間,就能獲得同樣的品質結果,連帶的也使得使用的功耗下降。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
另外在 NPU 中會面臨到的運算問題是跨精度的運算,有些部分的資料格式是 FP32、有些可能是 FP8,甚至是整數等,需要透過數據轉換器在不同的計算階段間進行轉換,Intel 在這次 NPU 5 中設計了一個客製化的內部數據轉換格式,將資料格式轉換成 FP32 進行運算,這也讓其他 SoC 中的 IP 可以讀取 NPU 的運算結果。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
這次在 NPU 5 中也加入了可程式化的激勵函式(Activation Function)設計,除了先前就有的 Piecewise linear functions 片段線性函數外,這次加入了可程式化的查找表,提供更大範圍的非線性激勵函式支援。好處是可以降低 NPU 中的 Shave DSP 工作負擔,可以直接轉移到神經運算引擎中運作。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
而實際來看 NPU 5 的微架構效能表現,跟 NPU 4 相比,在 INT8、FP16 傳統的運算中,NPU 5 有小幅度的提升,但是在 Shave DSP 運作的 Softmax 部分,因為 Shave DSP 數量減少了,所以 NPU 5 在這部分效能有小幅度的下降,但是可以看到在神經運算引擎運作以及運用 FP8 資料格式的部分,都比起 NPU 4 有相當明顯的成長。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
總結一下這次 Panther Lake 處理器 NPU 5 的特色,包括增加了單位面積的效能、MAC 陣列尺寸翻倍、原生支援 FP8 資料格式、增強資料格式轉換能力、最高提供 50 TOPS 的算力,也符合了微軟 Copilot+ PC 的規範。

Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
而在這次 Panther Lake 處理器的總和 AI 算力部分,則是 CPU 部分提供 10 TOPS、NPU 部分提供 50 TOPS、GPU 部分提供 120 TOPS,整體平台提供最高 180 TOPS 的算力輸出。
會上在明年的copilot pc?
感謝分享&介紹,同效能更低功耗表現 就是讚
真的沒讓人失望 非常的強大 驚為天人
PPT 很精美,

希望實體晶片測試,

經得起考驗不要再烙賽了!





陳拔 wrote:
這次 Panther Lake 處理器的總和 AI 算力部分,則是 CPU 部分提供 10 TOPS、NPU 部分提供 50 TOPS、GPU 部分提供 120 TOPS,整體平台提供最高 180 TOPS 的算力輸出。

有提供8核PTL(4044
的算力輸出嗎?
看這精美的Power Points,講完後進步5 TOPS....我還以為是進步50 TOPS
比較好奇,這一次到底會不會到桌上型?
桌上型電腦到底啥時才有 Copilot+ PC?
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!