現有 AVX10 等 SIMD 擴展雖能處理矩陣運算,但在計算密度與擴展性上存在侷限,ACE 正是為突破這一瓶頸而生。
ACE 作為 x86 指令集的關鍵擴展,核心目標是大幅提升矩陣乘法性能、擴展性與能效。矩陣乘法作為神經網路與大語言模型的核心計算模組,其效率直接決定 AI 工作負載的表現。
技術層面,ACE 引入基於外積運算(outer product operation)的矩陣加速機制,無縫整合 AVX10。白皮書資料顯示,在消耗相同數量輸入向量的前提下,ACE 外積運算的計算密度比等效的 AVX10 乘加運算(multiply-accumulate operation)高出 16 倍。
ACE 在底層計算方面,支援 INT8、OCP FP8、BF16 等主流 AI 資料格式,其設計兼顧靈活性與擴展性,旨在建構覆蓋筆記型電腦到超級電腦的全場景矩陣加速框架。
在軟體生態方面,ACE 整合低精度 GEMM 等深度學習和高性能計算庫,並啟動適配 NumPy、SciPy 等 Python 庫以及 PyTorch、TensorFlow 等主流機器學習框架。




























































































