卡王現身信仰有價 NVIDIA TITAN X台灣正式開賣

huaing123

2460分

31樓

huaing123

個人積分：2460分

文章編號：64735482

Arbicool wrote:
從Fami架構開始老黃刀工鍛鍊多年，目前下刀功力精湛不是AMD能夠相比的

插個嘴
Fami是什麼？
NVIDIA家的顯示卡架構我只聽過Fermi
沒聽過Fami耶

Arbicool

408分

32樓

Arbicool

個人積分：408分

文章編號：64735993

huaing123 wrote:
插個嘴Fami是什...(恕刪)

已修正

Fermi架構原先的目標其實在Pascal世代才完成，從硬體走向軟硬混合架構也走了5~6年了

有關自行車與重量訓練或慢跑可PM交流互換意見，其他一律忽略之。

Arbicool

408分

33樓

Arbicool

個人積分：408分

文章編號：64736366

kouyoumin wrote:
究竟是哪種運算呢?
即使是正夯的Deep Learning也鮮少用到FP64
該不會是跑分這種運算? XD

音效轉碼混音之類的工作，之前在友站他有分享過

kouyoumin wrote:
不會有雙精度? 幾乎都有啊 (雖效能僅FP32的幾十分之一)
如果要說線性的FP16~FP64效能
Quadro GP100都發表那麼久了
怎麼還會以為只有Tesla (事實上Tesla P世代也只有P100一款的FP64沒閹割)

軟體閹割啊，這件事情從Geforce->Quadro就在幹了

P6000 = 24G記憶體的Titan Xp，遊戲性能幾乎一致，但是跑某些openGL軟體或open GL benchmark fps只剩百分之一

雙精度的部分現在就是在驅動程式面板完全找不到雙精度的選項了

你看一下我的GTX 1080 296.845跟對比blackleo網兄的 Titan Z 1919.27 (可以把他的分數除以二)

雙精度分數就算把Titan Z分數減半(因為CUDA-Z會全部晶片同步運算，單晶片性能要減半)也是把GTX1080雙精度打到滿臉是土

另外一個能測試雙精度浮點的軟體是Aida 64 內的GPGPU benchmark，測試結果也是比開了雙精度的Kepler Titan弱

Deep learning則是半精度混合精度運算吃重，也是Pascal世代主要性能發揮的地方，下一代的Volta性能則更強

Tesla P40 = GP102 / Tesla P4 = GP104；這些運算卡雙精度都比同晶片的遊戲卡強多了

有關自行車與重量訓練或慢跑可PM交流互換意見，其他一律忽略之。

kouyoumin

1201分

34樓

kouyoumin

個人積分：1201分

文章編號：64737700

Arbicool wrote:
Tesla P40 = GP104 / Tesla P4 = GP106；這些運算卡雙精度都比同晶片的遊戲卡強多了

P40是GP102, P4是GP104
這兩張的FP64效能都只有FP32的1/32
https://devblogs.nvidia.com/parallelforall/new-pascal-gpus-accelerate-inference-in-the-data-center/
這跟SM設計有關, 不是買Tesla就會有高效FP64

Arbicool

408分

35樓

Arbicool

個人積分：408分

文章編號：64739569

kouyoumin wrote:
P40是GP102...(恕刪)

感謝資料補正，前文已修正(中文官網寫得不是很清楚)

GP100本來就是一個沒有推向消費性商品的特殊產物，雖然說與GP102是同宗，但是硬體架構大相逕庭

Tesla帳面規格一部分受到使用GDDR5記憶體與晶片降頻的影響，但是同宗用GDDR5X的高頻Geforce實際上跑測試可沒厲害到哪邊去

你是跑什麼東西一直強調FP64???

NV的手法是只要同晶片，用驅動程式與硬體屏蔽來做產品區隔，所以只要驅動程式與硬體屏蔽沒動到手的部分性能大致一致

半精度、雙精度(包含FP64)與 NVIDIA TensorRT在Geforce的驅動程式基本上是被廢掉的

測試是一樣都可以跑只是Geforce測出來的分數比起Tesla就是莫名其妙的低落點點點

早在NV走向運算卡之前在專業繪圖上Quadro/Geforce就已經玩過很多軟硬兼施的把戲；知名的Specviewperf測試openGL性能的軟體就有欺騙軟體讓軟體將Geforce認成對應的Quadro就能跑出跟Quadro一模一樣的分數，而NV在驅動程式沒動手的部分Geforce與Quadro測試分數不會有顯著差異

我平常頂多是跑會用到CUDA與openCL的繪圖運算，這方面Geforce跟Quadro就沒有什麼差別；NV在業界有個笑話就是間賣驅動程式而不是賣卡維生的公司

近幾年還有很有趣的GTX690(它只有公版)改Tesla K10或Quadro K5000，性能上由於690上面的GK104更高頻，所以測試的結果非常有趣

有關自行車與重量訓練或慢跑可PM交流互換意見，其他一律忽略之。

kouyoumin

1201分

36樓

kouyoumin

個人積分：1201分

文章編號：64741720

Arbicool wrote:
你是跑什麼東西一直強調FP64???

FP64就雙精度浮點數啊
只是更明確表示64位元
(避免long int究竟是int32_t還是int64_t這種問題)

Arbicool wrote:
半精度、雙精度(包含FP64)與 NVIDIA TensorRT在Geforce的驅動程式基本上是被廢掉的
測試是一樣都可以跑只是Geforce測出來的分數比起Tesla就是莫名其妙的低落

前面就說過這是SM設計的問題
GP100每個SM有32個FP64 CUDA Cores和64個FP32 CUDA Cores(且64個都可以一次跑兩筆FP16運算)
GP102則是分別是2與64(64個裡面只有一個可以一次跑兩筆FP16運算)

要快, 只要是GP100的, 不管運算卡還是顯卡都很快
GP102以下, 就算Tesla也是那樣子

Arbicool

408分

37樓

Arbicool

個人積分：408分

文章編號：64749367

kouyoumin wrote:
FP64就雙精度浮...(恕刪)

請你先搞清楚P100是什麼東西好嗎？

GP100 Pascal Whitepaper - Nvidia

從頭到尾我都在講消費型Geforce對應的Tesla與Quadro你是看不懂？

GP100這東西還必須直接跟NVIDIA買，下單後的交期還不定，管你是Tesla還是Quadro

先前Volta已經發表的GV100也是依循Tesla GP100框架的產品，不是消費型晶片點點點

PNY跟麗台最多只能賣到P6000

要討論Tesla的運算性能本來就是比較GP102的Tesla與Geforce，GP104的Tesla與Geoforce

更直接講，前面Titan Z就是沒有封印雙精度的GK110，同樣GK110的 GTX 780Ti去跟Titan Z對打運算能力就是吃滿臉土而已

有關自行車與重量訓練或慢跑可PM交流互換意見，其他一律忽略之。

kouyoumin

1201分

38樓

kouyoumin

個人積分：1201分

文章編號：64751526

Arbicool wrote:
從頭到尾我都在講消費型Geforce對應的Tesla與Quadro你是看不懂？...(恕刪)

問題在於對Tesla有太多FP64效能的幻想
GP102 FP64就是只有FP32的1/32效能
並不會因為你買了P40就出現Kepler時期的FP64/FP32效能比例(約1/3)
FP64在Pascal世代就只有GP100能看
但是有差嗎?
看近年GTC就知道NV主打Deep Learning應用
而在這個領域FP64根本就不重要
(看看P40/P4還以INT8宣傳)

Arbicool

408分

39樓

Arbicool

個人積分：408分

文章編號：64758297

kouyoumin wrote:
問題在於對Tesla有太多FP64效能的幻想
GP102 FP64就是只有FP32的1/32效能
並不會因為你買了P40就出現Kepler時期的FP64/FP32效能比例(約1/3)
FP64在Pascal世代就只有GP100能看
但是有差嗎?
看近年GTC就知道NV主打Deep Learning應用
而在這個領域FP64根本就不重要
(看看P40/P4還以INT8宣傳)

你的毛病就是善於扭曲他人的意見挖鼻孔

GP100/GV100本來就不是消費性產品，整個Framework雖然是Pascal卻不是以圖形顯示運算為主的設計；而GP102/GP104本身就是以遊戲卡、專業繪圖與通用運算做出發的通用晶片產品

同晶片不同PCB不同驅動程式對產品做區隔前面兩篇我回應很清楚

你怎麼不敢講雙精度或你一再強調的FP64 Tesla P4輾壓GTX1080、還有P40輾壓Titan Xp，雖然GP104/GP102的Tesla FP64性能不如GK110的泰坦Z/BE；但在Pascal世代雙精度/FP64的Tesla就是有兩倍有餘Geforce的性能挖鼻孔

採用NVLINK使用HBM2的P100本來就跟Kepler世代不同了，GK110的雙精度/FP64性能是GK104的5倍，只是NVIDIA在NVLINK/HBM2的P100上才有針對性的設計，在PCI-E介面的GPU上就已經捨棄這些硬體架構才導致GP102/GP104先天FP64/雙精度孱弱

同樣GP100，走NVLINK跟PCI-E 3.0性能差距也有20%左右你怎麼也不講？

Deep Learning應用本來就是走半精度/混合精度；怎麼你現在好像才想清楚這點開始講Deep Learning應用FP64不重要？

同樣NVLink介面的GV100 Tesla的性能是P100的1.5倍，這是已經查得到的資料

不管FP64/雙精度在硬體上是否捨去，Tesla與Geforce同晶片的性能差距就是兩倍

GOOGLE 不會用是不是啊？

有關自行車與重量訓練或慢跑可PM交流互換意見，其他一律忽略之。

kouyoumin

1201分

40樓

kouyoumin

個人積分：1201分

文章編號：64759576

Arbicool wrote:
你怎麼不敢講雙精度或你一再強調的FP64 Tesla P4輾壓GTX1080、還有P40輾壓Titan Xp

敢問輾壓的數據？
我手邊GTX1080(GP104)跑CUDA samples的nbody (./nbody -benchmark -fp64 -device=0)
測出來約230 GFLOP/s
這可不輸Tesla P4規格表上的數值(170 GFLOP/s)

卡王現身信仰有價 NVIDIA TITAN X台灣正式開賣

小惡魔新聞台

小惡魔廣編特輯

小惡魔市集

卡王現身 信仰有價 NVIDIA TITAN X台灣正式開賣

小惡魔新聞台

小惡魔廣編特輯

小惡魔市集

今日熱門文章 網友點擊推薦！

卡王現身信仰有價 NVIDIA TITAN X台灣正式開賣

今日熱門文章　網友點擊推薦！