HASWELL的進步真的只有這樣嗎?

foxpoli

16分

41樓

foxpoli

個人積分：16分

文章編號：44496047

你這頭像不簡單啊同時讓我想到4個人

劉備曹操曹丕郭嘉 @,@!!!

Lake Shore

27分

42樓

Lake Shore

個人積分：27分

文章編號：44496717

hanzo0313 wrote:
hUMA應該不只這樣
因為HSA最終目標是要讓指令集進CPU之後能夠自由決定是交給CPU/GPU處理

這個要等Kaveri之後的後繼者再說，畢竟Kaveri並沒有作到你說的情況。如果是現有的x86/x87/SSE/AVX指令，進了CPU後就沒有理由再吐出來給GPU處理了，效率會很差；如果是定義新指令集，就必須讓作業系統跟開發工具廠商如微軟也買單。這就不像hUMA是技術問題，而是升級到公司-公司間的business層面了。

hanzo0313 wrote:
要解決這個問題首先就是要讓CPU/GPU能同樣存取共同的記憶體

因為不管是Intel UMA or A/N的獨顯，在交換系統記憶體時都還是需要轉譯
也就是GART，這部分一刀一槍都是要一個一個來，佔了很多記憶體cycle

所以hUMA要做的是這一步，跟Intel做的用快取來加速不太一樣...(恕刪)

讓CPU/GPU存取相同的記憶體，跟讓CPU/GPU存取相同的快取，出發點是類似的，前者是在記憶體層級上直接處裡CPU/內顯資料的Coherency，後者是在快取層級上處理CPU/內顯資料的Coherency。如果後者是為了「加速」，前者當然也是「加速」。作法不一樣，但都是為了讓CPU/GPU能夠直接存取同一份資料，不用一律複製來/複製去、同步來/同步去。

快取的存在跟快取演算法的設計，本來就是為了提高read/write命中率，讓CPU核心不用去相對慢很大的記憶體存取資料，Intel只是把內顯也擺在跟CPU核心一樣的層級，可以直接存取L3快取，跟CPU核心共享資料。

至於AMD把coherency設計在記憶體層級，也是合理的，前面就說過了，畢竟APU根本沒有L3快取。

Intel在3D遊戲效能這一塊，以HD4600來說，還是落後APU的（HD5200雖然遊戲效能贏過APU，但可預見無法普及），但是以OpenCL計算效能來看，完全不輸給APU。

hanzo0313

7分

43樓

hanzo0313

個人積分：7分

文章編號：44497620

以目前來說，只要是透過OpenCL的應用，就是從APP層就要改變程式的寫法
真正能完成HSA的最後目標就是不用管什麼APP，計算的部份會由HW來決定

至於快取的部份...我想應該這麼說，不過我不確定Intel是不是100%這樣做

某APP透過OpenCL來執行計算
資料從SRAM(OS)->GART->CPU Cache->GPU FB->GPU Processing
如果像hUMA所做的
資料從SRAM(OS)=GPU FB->GPU Processing

根據PS4的架構師所說，Sony提的專利即是在不經過轉譯的狀況下，讓同一塊memory讓CPU/GPU同時access

Lake Shore

27分

44樓

Lake Shore

個人積分：27分

文章編號：44499510

hanzo0313 wrote:
真正能完成HSA的最後目標就是不用管什麼APP，計算的部份會由HW來決定
...(恕刪)

由系統軟體決定。

hanzo0313 wrote:
至於快取的部份...我想應該這麼說，不過我不確定Intel是不是100%這樣做

某APP透過OpenCL來執行計算
資料從SRAM(OS)->GART->CPU Cache->GPU FB->GPU Processing
如果像hUMA所做的
資料從SRAM(OS)=GPU FB->GPU Processing
...(恕刪)

SRAM(OS)??

Intel 作法：

L3快取命中：(絕大多數情況)
　　CPU core <--> L3 Cache <--> internal GPU

L3快取miss : (少數情況)
　[CPU access GPU data]
　　DRAM allocated to internal GPU --> L3/L2/L1 cache --> CPU core
　　　　　　　　　　　　　　　　　　\> DRAM allocated to CPU
　[GPU access CPU data]
　　DRAM allocated to CPU --> L3 cache --> internal GPU
　　　　　　　　　　　　　　　\> DRAM allocated to GPU

AMD作法：

　　CPU core <--> DRAM <--> internal GPU

hanzo0313 wrote:
intel內顯還需要加油啦...但是有進步就是好事
不然一次解決，去找NV談GPU授權直接包進CPU比較快...
...(恕刪)

這......個人是覺得，等AMD能夠作到在FX-8350等級的處理器也包入等同HD4600效能等級的內顯，或是8670D等級的內顯搭配等同於4770K的處理器運算能力，再來酸也不遲....... orz

hanzo0313

7分

45樓

hanzo0313

個人積分：7分

文章編號：44503283

不不，如果是真正的HSA,計算工作進COMMAND queue之後
會交由scheduler來決定工作該直接交給誰處理

另外你的說明也可以看到差異性
Intel應該還會再進步的
只是比較快的方法應該還是找NV會快一點
畢竟都想開放KEPLER的授權了
這該不是酸吧？

另外你提到的東西要做也不是做不到
看看ps4 & xb1....包的還是超特殊的小C大G哩 XD

Lake Shore

27分

46樓

Lake Shore

個人積分：27分

文章編號：44504994

hanzo0313 wrote:
不不，如果是真正的HSA,計算工作進COMMAND queue之後
會交由scheduler來決定工作該直接交給誰處理
...(恕刪)

「工作」？command queue？在CPU核心跟GPU之上，再多加上一個太上皇硬體scheduler，來決定「工作」交給CPU或GPU（如何決定？），你所謂的真正HSA，根本已經不是x86架構了，所以才說必須系統軟體廠商背書，沒有作業系統支援，連最最最基本的context switch，都不會正確。

hanzo0313 wrote:
另外你提到的東西要做也不是做不到
看看ps4 & xb1....包的還是超特殊的小C大G哩 XD
...(恕刪)

說到小C大G，現階段桌上型APU便是如此，CPU加上GPU的總合運算力仍然不夠，畢竟CPU部分受限於只能2M4T便到頂了，且沒有L3快取。

wbj6740

149分

47樓

wbj6740

個人積分：149分

文章編號：44506249

Lake Shore wrote:

在快取層級上處理CPU/內顯資料的Coherency

L3快取命中：(絕大多數情況)
CPU core <--> L3 Cache <--> internal GPU

想請教您描述的意思是GPU可以"直接"存取CPU所cache的資料嗎? 換言之CPU與GPU可以共同share同一筆cache line同時維持各自的L1/L2,TLB與page table的一致性嗎?

還是有其他的轉換機制來維持呢?

感謝!!

nvfans

933分

48樓

nvfans

個人積分：933分

文章編號：44506580

hanzo0313 wrote:
intel內顯還需要...(恕刪)

加油是一定要的啦...驅動部分Intel還得多下功夫

去年光是研發費用就101e鎂了，不過驅動的穩定性還是差AMD&NV一截。

不能只有硬體上了，結果軟體跟不上...也不要只是跑分好看，實際用就...就

。

Lake Shore

27分

49樓

Lake Shore

個人積分：27分

文章編號：44507416

前一台S牌筆電，採用AMD獨顯（Speed模式）跟Intel內顯（Stamina模式），採用實體開關切換，切到Speed模式時，三不五時就碰到「顯示驅動程式停止回應」......

現在這台還是S牌，改成Nvidia獨顯＋Intel內顯，以Optimus自動切換，幾乎沒碰過顯示驅動程式停止回應....

同樣是S牌筆電，安裝原廠驅動程式，同樣是Win7，類似的S牌出廠預先安裝軟體以及另外自行安裝的常用軟體......

8156777

97分

50樓

8156777

個人積分：97分

文章編號：44507498

Lake Shore wrote:
前一台S牌筆電，採用...(恕刪)

用久了你會發現a卡的做法穩定性比較好，雖然要重開機
n卡因為直接做切換，遊戲或軟體會常常誤判。。。。。。。使用內顯。。

HASWELL的進步真的只有這樣嗎?

小惡魔新聞台

小惡魔廣編特輯

HASWELL的進步真的只有這樣嗎?

小惡魔新聞台

小惡魔廣編特輯

今日熱門文章 網友點擊推薦！

今日熱門文章　網友點擊推薦！