微軟正在探索如何利用其 AMD GPU 的「堆疊」來處理推理工作負載,同時該公司也在開發工具包,將 NVIDIA CUDA 模型轉換為 ROCm 支援的程式碼。
微軟認為推理能力的需求遠大於訓練能力,使得AMD的AI晶片更具吸引力。
NVIDIA之所以能夠在人工智慧領域保持領先地位,原因之一在於其擁有強大的CUDA軟體生態系統,這是AMD等競爭對手目前無法匹敵的。儘管各方都在努力實現軟體棧的跨平台支持,但尚未出現主流解決方案。然而,據一位微軟“高層”員工透露,這家科技巨頭已經開發出一些“工具包”,可以將CUDA代碼轉換為ROCm兼容版本,從而在AMD GPU上運行CUDA代碼。
打破 CUDA 的主導地位並非易事,因為該軟體生態系統與人工智慧產業密不可分,其應用幾乎無所不在,即使在中國這樣的國家也是如此。然而,這位員工提到的微軟工具包可能採用了一種已在市場上應用多年的方法。實現 CUDA 到 ROCm 轉換的一種方法是使用運行時相容層,該層允許將 CUDA API 呼叫轉換為 ROCm,而無需完全重寫原始程式碼。 ZLUDA工具就是一個例子,它可以攔截 CUDA 調用,將其轉換為 ROCm,而無需重新編譯。
微軟:
我們開發了一些工具包,可以協助將 CUDA 型號轉換為 ROCm 格式,以便您可以在 AMD 平台上使用它,例如 300X。我們收到了很多關於我們與 AMD 平台(包括 400X 和 450X)合作計劃的諮詢。我們目前正在與 AMD 合作,探討如何最大限度地發揮其優勢。
然而,由於 ROCm 仍是一個相對「不成熟」的軟體棧,CUDA 中存在一些 API 呼叫或程式碼片段與 AMD 軟體沒有對應關係,這在某些情況下會導致效能驟降,在大型資料中心環境中是一個高風險問題。這裡提到的工具包的另一個可能變體很可能是與 Azure 整合的端對端雲端遷移工具,可同時支援 AMD 和 NVIDIA 執行個體。當然,大規模轉換時這會帶來一些問題,但從目前的情況來看,微軟開發的工具包似乎使用範圍有限。
微軟之所以推進“軟體轉換”,原因很簡單:該公司發現推理工作負載正在成長,因此需要尋找更具成本效益的工作負載解決方案。 AMD 的 AI 晶片正符合這項需求,因為它們是唯一能與昂貴的 NVIDIA GPU 相媲美的產品。由於在所有推理環境中都離不開 CUDA 模型,因此將 CUDA 模型轉換為 ROCm 模型就成了微軟的下一個重大步驟。



























































































