NVIDIA 推出 NVLM 1.0 開源大型語言模型提供精確率更高的文字推理回答甚至連迷因圖片都能解析

NVIDIA 推出 NVLM 1.0 開放原始碼大型語言模型。

在提供大多數 AI 廠商運算所需的硬體算力以及執行／開發框架後，NVIDIA 終於（或是說忍不住？）跳下來自己做自家的大型語言模型了（反正自家算力要多少有多少的概念？），在 9 月 27 日於 Github 上發表了自家多模態大型語言模型 NVLM 1.0，表示在視覺-語言相關工作上可以與市面上領先的主要模型（如 GPT-4o）或是開源模型（例如 Llama 3-V 405B 與 InternVL 2）競爭，另外 NVIDIA 也表示將會持續在社群上提供開放原始碼與公開模型權重，讓更多開發人員可以接觸高階 AI 模型技術，藉以打破 AI 模型開發上的壁壘。

NVIDIA 推出 NVLM 1.0 開源大型語言模型提供精確率更高的文字推理回答甚至連迷因圖片都能解析

NVIDIA 在 Github 上面公布的 NVLM 1.0 模型相關資料總覽，另外也與其他主要競爭 AI 模型進行比較。NVLM-1.0-D 72B 模型主要在純文字任務的性能上，比起文字骨幹模型有顯著的提升，在經過多模態訓練後，準確率也提升了 4.3 點。此外，NVLM-1.0-D 72B 也在處理複雜的視覺跟文字輸入上也出現相當優異的表現：

NVIDIA 推出 NVLM 1.0 開源大型語言模型提供精確率更高的文字推理回答甚至連迷因圖片都能解析

可以看到 NVLM-1.0-D 72B 模型展示了相當好的指令適應能力，可依據使指令適當的控制生成內容的長度，並且依據使用者提供的圖片，生成高品質、具備相當細節的敘述。

NVIDIA 推出 NVLM 1.0 開源大型語言模型提供精確率更高的文字推理回答甚至連迷因圖片都能解析

另外 NVLM-D-1.0-72B 模型也展示了搭配 OCR 辨識、推理、常識、世界知識以及編碼能力等的多模態任務，在上面的範例中可以看到 NVLM-D-1.0-72B 模型透過 OCR 來辨識圖片中的文字標籤，並且利用推理來理解圖片中的手寫摘要或是手寫標籤標記，甚至是理解迷因圖片背後的幽默（範例 a），也可以準確執行定位來回答位置相關的辨識問題（範例 b）。另外 NVLM-D-1.0-72B 模型也能透視覺辨識，辨識表格或是手寫代碼，進行數學推理或是編碼工作（範例 d、範例 e）。

NVIDIA 推出 NVLM 1.0 開源大型語言模型提供精確率更高的文字推理回答甚至連迷因圖片都能解析

另外 NVLM-1.0-D 72B 模型也能夠透過 Step by Step 的數學推理來解決數學問題，並且透過生成的文字敘述來提高回答的可讀性。目前 NVLM-1.0-D 72B 模型的資料，包括白皮書、模型權重等都已經在 Github 上公開，有興趣的夥伴可以自己上去看一下。（連結在此）

2024-10-03 10:33 #1