Intel未來三年CPU藍圖曝光:288MB大快取、介面相容、取消P/E大小核

AI:
其實很多家公司/研究機構都碰過「多個執行單元合體來加速單一工作」這個想法,只是做法不同。
Intel 的 Software Defined Supercore (SDS) 算是把這概念正式搬回 CPU。
可以分幾類看:

1. AMD:Clustered Multithreading (CMT)(最像,但方向相反)

AMD 在 Bulldozer (2011) 用過:Clustered Multithreading (CMT)
1 "module" = 2 個 integer cores
+ 共用 FPU
+ 共用 decode
+ 共用 cache

像這樣:
[Int Core A]
\
> shared frontend/FPU
/
[Int Core B]

有點像:
先天合體的雙核心

不像 Intel SDS 是:
平常分開,需要時才動態合體

AMD Bulldozer 比較像「固定黏在一起」。
問題是:

單核沒想像中強
Windows scheduler 很難排
市場評價不好

所以後來 Zen 放棄這條路。

2. IBM:SMT4 / SMT8(反方向做到極致)

IBM POWER10
1 core → 同時跑 8 threads

這不是「合體」,是:
一個超大核心讓很多 thread 共用


Intel 是
many small cores -> one big logical core

IBM 是:
one giant core -> many logical threads
算鏡像設計。


3. NVIDIA GPU:Cooperative Thread Clusters(有點像 XPU 版)

GPU 早就在做類似事。
例如 NVIDIA CUDA
SM0 + SM1 + SM2

一起執行同一個 kernel

新 GPU 有:
  • Thread Block Clusters
  • Cooperative Groups
  • GPC-level scheduling
概念是:
多個運算單元暫時組隊做同一件事

其實很像 Intel Supercore,只是 GPU 比較容易做,因為:
  • workload 比較規則
  • SIMD/SIMT 天生適合同步

4. Academic research:Reverse Hyper-Threading(超老概念)

其實學界 20 多年前就在想:
能不能把 thread-level parallelism 轉回 instruction-level parallelism?
甚至很多人直接叫:
Reverse SMT
Reverse Hyper-Threading
Core Fusion
Dynamic Core Federation

Intel 不是第一個想到。

只是以前做不到,因為:
  • cache coherence 太慢
  • inter-core latency 太高
  • synchronization 太貴
現在:
  • mesh interconnect 更快
  • shared L3 更大
  • chiplet fabric 更成熟
才比較有機會。

5. AI/XPU accelerator:更常見

很多 AI accelerator 已經在做:systolic array pooling

例如:
會把:many compute tiles
動態變成:one giant matrix engine

這其實是:
Supercore for AI
只是不是 CPU ISA,而是 tensor ISA。

誰最像 Intel Software Defined Supercore?

最像的是這三個:
<thead data-start="2349" data-end="2361"></thead>
技術 像不像
AMD Bulldozer CMT 70%(固定共享)
NVIDIA SM clustering 80%(動態組隊)
AI accelerators tile fusion 90%(最接近概念)

但:
Intel 是第一個想把這件事正式用在 general-purpose x86 CPU 上。
這才是特別的地方。

一句話:

AMD:先天雙胞胎
IBM:一個巨人分身
NVIDIA:多人合作
AI XPU:tile fusion
Intel SDS:多核心臨時合體

Intel 並不是唯一想到的人,
但可能是第一個想把「動態合體 CPU core」商品化的人。
cruiseton wrote:
英特爾已獲得一項名為“軟體定義超核”(Software Defined Supercore,簡稱SDC)的專利技術,該技術能夠讓軟體融合多個核心的功能,從而構建一個虛擬的超寬“超核”,在並行處理足夠多任務的情況下,提升單線程性能。...(恕刪)


又炒冷飯

很久以前,AMD 覺得寫多核的程式要考慮很多情況,能不能用硬體解決這件事。
目標是多核心一起合作當一個高速核心,4個2GHz 當一個8Ghz 用。
最後沒搞出來,退一步出了Turbo core,intel 那邊 是turbo boot。

另外intel 有出xeon phi 7210 cpu,1核4執行緒。暫稱HT2 技術好了。
不知道為什麼不下放HT2 到消費級CPU
chanp
AMD原本的規劃是推異質運算:CPU 跑整數及序列GPU跑浮點及並行…略;phi 架構最佳化只適用於 簡單的資料結構與高度並列,是要怎麼下放到消費級?
eclair_lave
INTEL的超執行緒效率不太好,還有互相拉扯核心資源的現象有點嚴重(所以之前才有玩家關HT提升遊戲性能的作法),當核心數量超過DT日常應用能吃的範圍外,HT這時反而容易變成扯後腿
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!