
NVIDIA 推出 NVLM 1.0 開放原始碼大型語言模型。
在提供大多數 AI 廠商運算所需的硬體算力以及執行/開發框架後,NVIDIA 終於(或是說忍不住?)跳下來自己做自家的大型語言模型了(反正自家算力要多少有多少的概念?),在 9 月 27 日於 Github 上發表了自家多模態大型語言模型 NVLM 1.0,表示在視覺-語言相關工作上可以與市面上領先的主要模型(如 GPT-4o)或是開源模型(例如 Llama 3-V 405B 與 InternVL 2)競爭,另外 NVIDIA 也表示將會持續在社群上提供開放原始碼與公開模型權重,讓更多開發人員可以接觸高階 AI 模型技術,藉以打破 AI 模型開發上的壁壘。

NVIDIA 在 Github 上面公布的 NVLM 1.0 模型相關資料總覽,另外也與其他主要競爭 AI 模型進行比較。NVLM-1.0-D 72B 模型主要在純文字任務的性能上,比起文字骨幹模型有顯著的提升,在經過多模態訓練後,準確率也提升了 4.3 點。此外,NVLM-1.0-D 72B 也在處理複雜的視覺跟文字輸入上也出現相當優異的表現:

可以看到 NVLM-1.0-D 72B 模型展示了相當好的指令適應能力,可依據使指令適當的控制生成內容的長度,並且依據使用者提供的圖片,生成高品質、具備相當細節的敘述。

另外 NVLM-D-1.0-72B 模型也展示了搭配 OCR 辨識、推理、常識、世界知識以及編碼能力等的多模態任務,在上面的範例中可以看到 NVLM-D-1.0-72B 模型透過 OCR 來辨識圖片中的文字標籤,並且利用推理來理解圖片中的手寫摘要或是手寫標籤標記,甚至是理解迷因圖片背後的幽默(範例 a),也可以準確執行定位來回答位置相關的辨識問題(範例 b)。另外 NVLM-D-1.0-72B 模型也能透視覺辨識,辨識表格或是手寫代碼,進行數學推理或是編碼工作(範例 d、範例 e)。

另外 NVLM-1.0-D 72B 模型也能夠透過 Step by Step 的數學推理來解決數學問題,並且透過生成的文字敘述來提高回答的可讀性。目前 NVLM-1.0-D 72B 模型的資料,包括白皮書、模型權重等都已經在 Github 上公開,有興趣的夥伴可以自己上去看一下。(連結在此)

感謝分享&介紹,更精準的文字推理回答是硬需求呀
技術進步的很快啊





















































































