a35504804 wrote:
考量點:
1.
按照慣例NV尾數是"90"的都是雙心卡
2.
完整的安培核心GA100也才8196cuda(8GPC*8TPC*2SM*64FP32)
比他低階的GA102-300不可能更多
所以有沒有可能是閹割的GA102*2
3.
3090 VRAM 是 24GB
3080 VRAM是 10GB
差了一倍以上好像有點多
但是考量到雙心顯示卡VRAM要除以2
3090實際能用的是24/2=12GB
剛好贏過去年卡皇2080ti的11GB
也比3080的10GB多一點點而已
1.沒有這種慣例
2.3090的實體CUDA數量是5248
因為改成每時脈週期會執行兩次著色運算
所以官網標示成2倍,但這算是灌水
3080的實體CUDA數量同2080Ti
但非光追遊戲頂多強30~40%,根本不到2倍
開光追+DLSS才會拉開差距
那是因為安培的RT跟Tensor核心都有強化
3.3090定位專業卡,取代TITAN RTX
而TITAN RTX早就是24GB了,就是館長直播遊戲用的卡
結論:你資訊沒爬清楚,所以才有這種異想天開問題
SKAP wrote:
2.3090的實體CUDA數量是5248
因為改成每時脈週期會執行兩次著色運算
所以官網標示成2倍,但這算是灌水
也不能算是灌水 浮點運算力的確有提升上去

只是並非所有的運算只用到浮點 大部分時間整數運算單元都會被閒置在一旁
老黃安培架構是取巧 一個整數配兩個浮點單元 有效大量減少電晶體數以及提升效能
在光追 需要大量浮點的時候簡直跟開掛一樣兇猛 就算沒光追一般場景也不會烙賽
3070就算不開光追也贏2080ti

用reddit上有人提到的例子,假設今天有一個100個浮點運算和10個整數運算的工作
Pascal 的CUDA core 要花100個cycles算完浮點運算,總共所花時間是100個clock cycles加上等待CPU算完10個整數運算的時間
Turing 的CUDA core 可以同時在10個cycles算10個浮點運算和10個整數運算,剩下的90個浮點運算會在90個cycles算完,10+90=100,所以總共所花時間為100個clock cycles
Ampere 的兩個CUDA cores可以同時在10個cycles算10個浮點運算和10個整數運算,剩下的90個浮點運算會平分給兩個CUDA cores在45個cycles算完,10+45=55 ,所以總共所花時間為55個clock cycles
ค้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้