AMD第三代的APU- Kaveri帶來的啟示

umts wrote:
所以Intel GPGPU是可以用L3 cache直接存取Global Memory,不需要統一虛擬定址空間這個東東(IOMMU轉譯).


GPU直接存取Global Memory和可以存取CPU用的Memory是兩回事情
今天如果Haswell GPU可以存取給CPU使用的Memory
寫程式的人還需要把Task丟來丟去嗎?
實際上Intel GPU就是不能存取劃給CPU的Memory

Haswell的做法不過是在CPU做L3快取
這樣增加GPU和CPU的Cache Hit rate
作效能方面的增加
就寫程式的立場來看
還是和之前GPGPU一樣麻煩

今天你有6GB主記憶體
1GB給GPU顯示卡
5GB給CPU
差別在於這5GB Intel GPU不能直接存取
要轉到1GB才能給GPU
但是AMD GPU可以直接存取這5GB

而AMD在Kaveri之前也是不可以,直到現在
Intel的弱點並不是支援OpenCL
OpenCL也可以支援HSA
重點是Intel的GPU不能直接存取把GPU當FPU來用
AMD卻可以也就是為甚麼得到廣泛的支持

這種突破和當年的64Bit一樣
都是AMD先做出的
不過當年Intel很快跟進
現在不知道會不會故意擺爛
因為不跟進Intel會被HSA拋棄,在Java和移動裝置上面效能大敗
跟進的話又被迫和AMD玩內顯大戰
這種突破就如當年單核變雙核一樣

以前的cpu+apu就是dual core

現在的cpu+apu就是core 2 duo

始終core 2 duo才有搞頭

Windwaker wrote:
重點是Intel的GPU不能直接存取把GPU當FPU來用
AMD卻可以也就是為甚麼得到廣泛的支持


想法很好,但是你把GPU能做的事情想得太完美了。

第一點就是GPU無法完全取代現在的FPU,不是什麼東西都適合GPU去跑,
不然要FPU做啥? 通通拔掉塞內顯來替代FPU就好了呀


再來就是hUMA也只有巨量資料同步會有優勢,
不用搬來搬去,但是你要丟給GPU算浮點的資料量會大到L3都塞不下時,
Xeon Phi、NV Tesla、比較適合這樣的需求。

這2點釐清以後,你還會認為AMD的hUMA能給INTEL多強的壓力?


順便提下,都叫做HSA,但是AMD跟ARM的差距大到你無法想像,ARM上個世紀就在搞這種東西了,
連INTEL都比AMD早10年以上,只是那時還沒HSA的說法,也沒用在PC上面。
vincent323 wrote:
第一點就是GPU無法完全取代現在的FPU,不是什麼東西都適合GPU去跑,
不然要FPU做啥? 通通拔掉塞內顯來替代FPU就好了呀


基本上FPU會變邊緣化
因為GPU做的就是FPU的事情
也就是為甚麼Steamroller整數變強而浮點變差
因為就是需要GPU來做浮點運算

但是很多簡單的事情是不需要丟給GPU的
比如說小算盤,或是老舊的壓縮轉檔程式
畢竟x86的包袱是很大的
但是未來的程式設計基本上用到FPU會越來越少的

vincent323 wrote:
再來就是hUMA也只有巨量資料同步會有優勢,
不用搬來搬去,但是你要丟給GPU算浮點的資料量會大到L3都塞不下時,
Xeon Phi、NV Tesla、比較適合這樣的需求。


光是這Face/Video Recongnition就有優勢了
還有就是類似AMD的True Audio這種DSP
HSA帶來的是很多以前CPU跑不動,GPU卻很難寫的程式方面的革新
說穿了Intel要嗎就是跟上
不然只不過就像現在被Qualcomm完全吃掉移動市場

Intel/Nvidia就是因為壓力的關係
才沒有加入這個有Qualcomm, Oracle, Samsung, AMD這個HSA標準制定團體
說穿了就是不想為AMD作嫁,因為沒有這種技術
另外一方面卻沒有替代的技術
想想看,以後PC遊戲能做Video Reconginition(XBOX Kinetict)
這些APU都輕易的做到
但是Intel的CPU就跑到快掛了

Kaveri Apu 的顯示能力 介於7730和7750之間
對於中度需求以上的玩家是雞肋
如果有做六核以上的壓路機架構無GPU功能的CPU在Fm2+插槽
比較有吸引力
目前intel的i3、i5、i7以及許多伺服器處理器在跑分上的表現比AMD的好
下一代FX系列處理器的研發目前是難以與APU系列的研發兼顧,導致越高階的越難以撼動
儘管效能與跑分沒有因果關係,非專家還是只能仰賴第三方的跑分資訊,判斷所謂的CP值

Intel跑分表現是如何超越的
E3-1220、E3-1220 v2、E3-1220 v3、E3-1230、E3-1230 v2、E3-1230 v3、E3-1230、E3-1230 v2、E3-1230 v3,這九顆處理器跨越三個系列運作頻率相近,可取來說明跑分的優勢所在
前三者是四核心四線程,後六者是四核心八線程
正規化運作頻率消弭其差異後,比較每個核心加倍的線程可以提高約22%分數
增加的幅度以跑分來權衡應該打八折左右,才是日常應用、遊戲感受到的處理器效能

現在的i3系列相對於上下產品線的訂價實在過高(此外E3-1230 v3也幾乎全面遜於i5-4670)
主流菜單是價位低廉效能近似的Pentium,或者價位高效能加倍的i5還有E3-1230 v2
可惜A8-6500市面上找不太到可信的通路商,所以我組了有點吵的A10-5800K主機..
這有賴於AMD的APU持續研發來競爭,以及GF晶圓代工商的製程技術要爭氣些才行
i12345 wrote:Kaveri Apu 的顯示能力 介於7


你這還是只用目前的觀點在看APU啊

LDS626 wrote:
資本額差那麼多, 怎...(恕刪)


Intel不怕他不玩,
我們才怕...
Windwaker wrote:
GPU直接存取Glo...(恕刪)


怎麼還是CPU和GPGPU丟來丟去.
這樣的認知是來自對AMD hUMA廣告文字的認知,還是實際開發HSA程式的體驗?


Global Memory Accesses go through the L3 Cache.
這裡的L3 cache是GPGPU的cache跟CPU無關, CPU的L3 cache被定義成last level cache (LLC).這可不是單純的增加Cache Hit rate.
相反的我卻沒看到Haswell GPGPU不可存取CPU用的Memory這樣的文字.


vincent323大"GPU無法完全取代現在的FPU,不是什麼東西都適合GPU去跑",這句話就是事實.
在GCN裡一個CU就是32個wavefront,意義上就是32線程.請問有多少種資料結構可以用32線程平行處理. 像Hawaii的2816 sp怎麼拿來作通用的FPU.
一般用途線程數都在個位數,為何不用單線程性能超強的FPU和SIMD單元.

先有資料結構才開發對應的CPU/GPGPU去處理,而不是開發CPU/GPGPU才去想可塞什麼資料格式來用應用.
資料結構才是本質,再強的CPU/GPGPU都只是處理的手法.
umts wrote:
Global Memory Accesses go through the L3 Cache.
這裡的L3 cache是GPGPU的cache跟CPU無關, CPU的L3 cache被定義成last level cache (LLC).這可不是單純的增加Cache Hit rate.
相反的我卻沒看到Haswell GPGPU不可存取CPU用的Memory這樣的文字.


這就沒甚麼好說的
你看過哪個廠商把產品〝不行〞的東西列出來?
最簡單的就是在Haswell OpenCL的做法下面
GPU要處理CPU的資料
就是要把資料從CPU的記憶體拿到GPU記憶體裡面
這種作法行之有年
Haswell並沒有改變這種老舊的做法

而kaveri是第一個實作HSA的x86 CPU
HSA是一種標準,而這標準就是架構在GPU能夠直接存取CPU的記憶體上面
Intel現在還沒有這種技術

umts wrote:
在GCN裡一個CU就是32個wavefront,意義上就是32線程.請問有多少種資料結構可以用32線程平行處理. 像Hawaii的2816 sp怎麼拿來作通用的FPU.
一般用途線程數都在個位數,為何不用單線程性能超強的FPU和SIMD單元.


舉凡影像,聲音這種浮點運算
做浮點平行運算本身就是多線程
這也就是為什麼GPGPU在做浮點運算上大幅超越FPU
要不然Intel本身也不會去支援OpenCL
守著自己最厲害的FPU不是很好
你這種說法其實是打Intel耳光

說穿了,之所以程式不喜歡用GPU作浮點
最大的問題就是記憶體存取的問題
因為很難搞
而這個問題AMD已經解決,以後GPGPU會在HSA的架構下越來越普遍
明年將會是APU起飛的一年
而五年之後,大部分的電腦都會是APU(CPU+GPU)
最顯著看到的好處就是Java速度快Intel三倍

文章分享
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 25)

今日熱門文章 網友點擊推薦!