卡王現身 信仰有價 NVIDIA TITAN X台灣正式開賣


Arbicool wrote:
從Fami架構開始老黃刀工鍛鍊多年,目前下刀功力精湛不是AMD能夠相比的

插個嘴
Fami是什麼?
NVIDIA家的顯示卡架構我只聽過Fermi
沒聽過Fami耶

huaing123 wrote:
插個嘴Fami是什...(恕刪)


已修正

Fermi架構原先的目標其實在Pascal世代才完成,從硬體走向軟硬混合架構也走了5~6年了
有關自行車與重量訓練或慢跑可PM交流互換意見,其他一律忽略之。
kouyoumin wrote:
究竟是哪種運算呢?
即使是正夯的Deep Learning也鮮少用到FP64
該不會是跑分這種運算? XD


音效轉碼混音之類的工作,之前在友站他有分享過


kouyoumin wrote:
不會有雙精度? 幾乎都有啊 (雖效能僅FP32的幾十分之一)
如果要說線性的FP16~FP64效能
Quadro GP100都發表那麼久了
怎麼還會以為只有Tesla (事實上Tesla P世代也只有P100一款的FP64沒閹割)


軟體閹割啊,這件事情從Geforce->Quadro就在幹了

P6000 = 24G記憶體的Titan Xp,遊戲性能幾乎一致,但是跑某些openGL軟體或open GL benchmark fps只剩百分之一

雙精度的部分現在就是在驅動程式面板完全找不到雙精度的選項了



你看一下我的GTX 1080 296.845跟對比blackleo網兄的 Titan Z 1919.27 (可以把他的分數除以二)

雙精度分數就算把Titan Z分數減半(因為CUDA-Z會全部晶片同步運算,單晶片性能要減半)也是把GTX1080雙精度打到滿臉是土

另外一個能測試雙精度浮點的軟體是Aida 64 內的GPGPU benchmark,測試結果也是比開了雙精度的Kepler Titan弱



Deep learning則是半精度混合精度運算吃重,也是Pascal世代主要性能發揮的地方,下一代的Volta性能則更強

Tesla P40 = GP102 / Tesla P4 = GP104;這些運算卡雙精度都比同晶片的遊戲卡強多了
有關自行車與重量訓練或慢跑可PM交流互換意見,其他一律忽略之。

kouyoumin wrote:
P40是GP102...(恕刪)


感謝資料補正,前文已修正(中文官網寫得不是很清楚)

GP100本來就是一個沒有推向消費性商品的特殊產物,雖然說與GP102是同宗,但是硬體架構大相逕庭

Tesla帳面規格一部分受到使用GDDR5記憶體與晶片降頻的影響,但是同宗用GDDR5X的高頻Geforce實際上跑測試可沒厲害到哪邊去

你是跑什麼東西一直強調FP64???

NV的手法是只要同晶片,用驅動程式與硬體屏蔽來做產品區隔,所以只要驅動程式與硬體屏蔽沒動到手的部分性能大致一致

半精度、雙精度(包含FP64)與 NVIDIA TensorRT在Geforce的驅動程式基本上是被廢掉的

測試是一樣都可以跑只是Geforce測出來的分數比起Tesla就是莫名其妙的低落

早在NV走向運算卡之前在專業繪圖上Quadro/Geforce就已經玩過很多軟硬兼施的把戲;知名的Specviewperf測試openGL性能的軟體就有欺騙軟體讓軟體將Geforce認成對應的Quadro就能跑出跟Quadro一模一樣的分數,而NV在驅動程式沒動手的部分Geforce與Quadro測試分數不會有顯著差異

我平常頂多是跑會用到CUDA與openCL的繪圖運算,這方面Geforce跟Quadro就沒有什麼差別;NV在業界有個笑話就是間賣驅動程式而不是賣卡維生的公司

近幾年還有很有趣的GTX690(它只有公版)改Tesla K10或Quadro K5000,性能上由於690上面的GK104更高頻,所以測試的結果非常有趣
有關自行車與重量訓練或慢跑可PM交流互換意見,其他一律忽略之。
Arbicool wrote:
你是跑什麼東西一直強調FP64???

FP64就雙精度浮點數啊
只是更明確表示64位元
(避免long int究竟是int32_t還是int64_t這種問題)

Arbicool wrote:
半精度、雙精度(包含FP64)與 NVIDIA TensorRT在Geforce的驅動程式基本上是被廢掉的
測試是一樣都可以跑只是Geforce測出來的分數比起Tesla就是莫名其妙的低落

前面就說過這是SM設計的問題
GP100每個SM有32個FP64 CUDA Cores和64個FP32 CUDA Cores(且64個都可以一次跑兩筆FP16運算)
GP102則是分別是2與64(64個裡面只有一個可以一次跑兩筆FP16運算)

要快, 只要是GP100的, 不管運算卡還是顯卡都很快
GP102以下, 就算Tesla也是那樣子
kouyoumin wrote:
FP64就雙精度浮...(恕刪)


請你先搞清楚P100是什麼東西好嗎?

GP100 Pascal Whitepaper - Nvidia

從頭到尾我都在講消費型Geforce對應的Tesla與Quadro你是看不懂?

GP100這東西還必須直接跟NVIDIA買,下單後的交期還不定,管你是Tesla還是Quadro

先前Volta已經發表的GV100也是依循Tesla GP100框架的產品,不是消費型晶片

PNY跟麗台最多只能賣到P6000

要討論Tesla的運算性能本來就是比較GP102的Tesla與Geforce,GP104的Tesla與Geoforce

更直接講,前面Titan Z就是沒有封印雙精度的GK110,同樣GK110的 GTX 780Ti去跟Titan Z對打運算能力就是吃滿臉土而已
有關自行車與重量訓練或慢跑可PM交流互換意見,其他一律忽略之。
Arbicool wrote:
從頭到尾我都在講消費型Geforce對應的Tesla與Quadro你是看不懂?...(恕刪)

問題在於對Tesla有太多FP64效能的幻想
GP102 FP64就是只有FP32的1/32效能
並不會因為你買了P40就出現Kepler時期的FP64/FP32效能比例(約1/3)
FP64在Pascal世代就只有GP100能看
但是有差嗎?
看近年GTC就知道NV主打Deep Learning應用
而在這個領域FP64根本就不重要
(看看P40/P4還以INT8宣傳)
kouyoumin wrote:
問題在於對Tesla有太多FP64效能的幻想
GP102 FP64就是只有FP32的1/32效能
並不會因為你買了P40就出現Kepler時期的FP64/FP32效能比例(約1/3)
FP64在Pascal世代就只有GP100能看
但是有差嗎?
看近年GTC就知道NV主打Deep Learning應用
而在這個領域FP64根本就不重要
(看看P40/P4還以INT8宣傳)


你的毛病就是善於扭曲他人的意見

GP100/GV100本來就不是消費性產品,整個Framework雖然是Pascal卻不是以圖形顯示運算為主的設計;而GP102/GP104本身就是以遊戲卡、專業繪圖與通用運算做出發的通用晶片產品

同晶片不同PCB不同驅動程式對產品做區隔前面兩篇我回應很清楚

你怎麼不敢講雙精度或你一再強調的FP64 Tesla P4輾壓GTX1080、還有P40輾壓Titan Xp,雖然GP104/GP102的Tesla FP64性能不如GK110的泰坦Z/BE;但在Pascal世代雙精度/FP64的Tesla就是有兩倍有餘Geforce的性能

採用NVLINK使用HBM2的P100本來就跟Kepler世代不同了,GK110的雙精度/FP64性能是GK104的5倍,只是NVIDIA在NVLINK/HBM2的P100上才有針對性的設計,在PCI-E介面的GPU上就已經捨棄這些硬體架構才導致GP102/GP104先天FP64/雙精度孱弱

同樣GP100,走NVLINK跟PCI-E 3.0性能差距也有20%左右你怎麼也不講?

Deep Learning應用本來就是走半精度/混合精度;怎麼你現在好像才想清楚這點開始講Deep Learning應用FP64不重要?

同樣NVLink介面的GV100 Tesla的性能是P100的1.5倍,這是已經查得到的資料

不管FP64/雙精度在硬體上是否捨去,Tesla與Geforce同晶片的性能差距就是兩倍

GOOGLE 不會用是不是啊?
有關自行車與重量訓練或慢跑可PM交流互換意見,其他一律忽略之。
Arbicool wrote:
你怎麼不敢講雙精度或你一再強調的FP64 Tesla P4輾壓GTX1080、還有P40輾壓Titan Xp

敢問輾壓的數據?
我手邊GTX1080(GP104)跑CUDA samples的nbody (./nbody -benchmark -fp64 -device=0)
測出來約230 GFLOP/s
這可不輸Tesla P4規格表上的數值(170 GFLOP/s)
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!