在過去繪圖晶片的功能都是定位在遊戲或是顯示影像之用,不過自從NVIDIA開始在繪圖晶片中,加入了用來支援CPU平行運算的CUDA技術之後,顯示卡能做的事情也變得愈來愈多,如今不只是影像轉檔或是繪圖運算的功能可以利用顯示卡來進行硬體加速,像是生命科學、地質探勘、氣象預測或是流體力學等等的研究應用中,也已開始利用CUDA的平行運算技術來加速模擬運算的效能。然而雖然一般顯示卡也同樣可以支援CUDA技術,不過對於這類科學應用的運算需求不僅是要求快速,穩定性更是同樣重要,所以針對這類的科學運算或是商業需求,NVIDIA大約在2005年左右便已開始推出了名為TESLA系列的平行運算卡。這類運算卡最主要的功能就是利用GPU中的CUDA核心來進行平行運算公作,而且與一般顯示卡最主要的不同,除了有較佳的運算效能之外,穩定性以及除錯機制也有較好的表現。


底下的影片則是透過NVIDIA TESLA平行運算卡來模擬蛋白質作用的效果,可以讓網友們做個參考。


TESLA K20&K20X

而隨著NVIDIA 新一代的Kepler架構的問世,TESLA系列的產品也新推出了型號為K20以及K20X兩款平行運算卡,且兩款運算卡中所搭載的GPU,便是目前Kepler架構中最高階的GK110晶片。兩款運算卡中,K20X主要是定位在伺服器或是超級電腦的需求,因此其中所搭載的GK110晶片則是具備14個SMX,CUDA核心數量達2688個,並可提供最高1.31Tfolps的雙精確度與3.95Tflops的單精確度的浮點運算效能。至於記憶體規格部分則是搭載具備ECC功能的6GB GDDR5記憶體(開啟ECC功能時,有12.5%的容量會做為ECC功能之用),且記憶體頻寬可達250GB/s(關閉ECC狀態)。

至於K20中所搭載的GK110晶片則是屏蔽了一組SMX模組,因此CUDA核心數量則為2496個,可提供最高1.17Tfolps的雙精確度與3.52Tflops的單精確度的浮點運算效能。至於記憶體規格部分也同樣是搭載具備ECC功能GDDR5記憶體,容量為5GB,且記憶體頻寬為208GB/s(關閉ECC狀態)。

NVIDIA TESLA K10、K20與K20X規格比較表。


CUDA 5

然而除了TESLA新產品的推出,NVIDIA的CUDA運算平台也今對新代一的Kepler架構改版至CUDA 5。其中最主要的改變則是新增了動態平行運算、RDMA 的 GPUDirect 支援、GPU指令函式庫以及NVIDIA Nsight Eclipse Edition等四項特點。其中所謂的動態平行運算(Dynamic Parallelism)功能,則是可以針對主要資料進行運算,以減少CPU之間的資料傳輸次數,縮短運算時間。


至於RDMA的GPUDirect支援,則是可以讓GPU與其它PCI-E的介面卡直接進行資料交換,不用再像過去需要經過系統記憶體。最主要的好處就是可以加快資料傳遞速度以及降低資料錯誤的產生。


文章的最後,感謝大家的耐心賞文,若是有任何問題的話,也歡迎大家一起討論,那麼下次報導再見囉!