Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取 - 巴哈姆特小屋
Gemini Ultra效果展示demo:
相關新聞:
GPT-4V最強對手來了,Google多模態Gemini模型登場,手機不連網也能從錄音檔摘要會議紀錄
這個技術叫做「視覺推理」(Visual Reasoning),意思就是,在不需要事先輸入好上下文內容、也不需要輸入任何文字內容,就可以進行預測的行為。(例如:距今約六年前爆紅全球的Alpha GO,就是使用該技術的領先佼佼者。)
而「多模態學習」(Multimodal learning),意思就是可以直接透過聽覺、視覺、語音同時運作的方式,進行資訊內容的判讀及學習。(類似於人類透過人類五感進行學習的概念。)
有興趣可以去讀這二篇論文
視覺推理(Visual Reasoning),神經網路也可以有邏輯
IMAGEBIND :META 開源型多模態學習的革新之作,將 6 種感知緊密結合!
然後,這是GPT3.5對「LLM與Visual Reasoning」的技術領域解釋:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-e6bf64534c78943ac5e8325e392ef23d.jpg)
GPT3.5對「Multimodal learning」的解釋:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-d153fe2300ebd8154d2e094f7bf0abc0.jpg)
在台北時間西元2023年12月6日晚間,Google發表的新模型Gemini Ai模型,已在英文版搶先上線了!透過機器視覺技術來解析4x4數獨,能力已經比過去使用的PaLM 2模型明顯提升不少。(降低幻想、胡言亂語的比例,目前僅支援英文語系。)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-770a0920840984b748124ce106f195e4.jpg)
預計明年西元2024年初逐步上線的Gemini Ultra模型,將比目前使用的Gemini Pro模型,帶來更為強大的通用領域表現。(如Google官方Demo影片內容)
-------------------------------
西元2024年2月2日更新內容:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-4ebf62fbeb5330c7e8c79c0d9590831a.jpg)
重點說明:
英文版本Google Bard:「支援文字生成圖片」功能。
繁體中文版本Google Bard :支援「Gemini Pro模型」、「仔細檢查」功能已正式下放,但尚未支援外掛插件。
-----------------------------------------
以下影片內容是Google官方的Gemini Pro效果展示:
先給出總結:
![點我看大圖 [動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-71c91cb54c8df3576506774b6b3891eb.jpg)
延伸閱讀:
[動眼看] New Bing讀取SEC文本測試(在無法使用搜尋引擎插件的條件下)
以下才是我自己使用Gemini Pro模型的實測:
4x4數獨測試
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-d47e0a5559859e121902acb9b4be8c6a.jpg)
![點我看大圖 [動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-ce928c289f4d4f2a17d8c81864eb1201.jpg)
數學題目測試
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-6b4fb95eda736c090c92a590380156f4.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-942ff1cbd40a0199d49d1baa73120ae5.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-106b3f17cd84cbe07ae5ba90315b9454.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-458a4771193d733851e80d0eab1df86a.jpg)
微積分
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-118129e828c6e8cfd8aee47595cdb0b2.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-7bd132f91e43a74e0e4ef7c9034d4d40.jpg)
中國象棋的棋局推論:
Gemini pro
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-9266b1412b6b21897df89f6df5d31d1c.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-e61a4a1cbca734c53b8d01f49a84116d.jpg)
ChatGPT-4 Turbo測試棋局推論
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-4d5f31366a210f22f6c828c26e7f52b8.jpg)
相關討論文串:【問題】請益一下這個棋局 - 網路象棋(巴哈姆特)
井字遊戲
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-eb7484ac1ca698a2be3815169b6b26a0.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-5fa7b9c92b047f3933b9881d1d25f7b3.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-e824f93a6cdad193807a50cbe8483fef.jpg)
分析RF設計:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-8bad1df8de7de8f04783894f0fbaa2e0.jpg)
分析mini 4wd的車身設計下壓力存在與否:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-31f1c062a945203e9d8f117f60f5227d.jpg)
Dota 2電競直播的勝負推論(在YT上直播)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-15cb38f7f0e502cb371b64ed369e9bab.jpg)
鋼彈模型組件的推論測試
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-eef0965a4e47f3b04c5f296bd7695aa0.jpg)
水煮蛋穿孔器推論測試
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-cb9f9d76be86d0339040a6ad5eb22013.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-a96ae9e126c1513419ee63b4443b610e.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-1743a157db0a1373612301be49b325f9.jpg)
氣象雲圖
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-6c446054df495dd349778be3b106cb72.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-b672f9ba1262549158c4efc60c2bf6a6.jpg)
CS:GO地圖
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-44dc8ef4ee26c202576c8cfbd4ce34ab.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-3fff3769f2e2fa5f3a2d91ef864b8a37.jpg)
撞球預測(結果只猜中5號球)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-2306e067bc98935bf3c001fbd2776cdb.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-9237a9697f31bdec5f27ae4a34b0e272.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-8f0de973d7530f51b3a832d0f16b0e56.jpg)
視覺翻譯(圖片裡中文的部分翻成英文,英文的部分翻成中文):
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-d8bd864de158775e9a651f2ef129dcfc.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-363ab60463b5f1b0c9fab3cdb81de207.jpg)
YT影片生成摘要:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-17e5997b308467f2ecbc1e5d51a1a550.jpg)
無CC字幕影片生成摘要也沒問題!(New Bing需要依賴CC字幕檔)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-aa4ebd52a26ed9796d2d6f4bd017a3cb.jpg)
文件讀取:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-cc71ba173044c88325e9085f9fcf8470.jpg)
研究 : GPT和其他AI模型無法分析SEC文件 - 鉅亨網
經過實測,目前僅只有Gemini Pro模型可以順利分析SEC文件且完全無幻覺,反觀其他的Ai模型通通都不行、且容易有幻覺問題。
Gemini Pro摘要
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-1038d0cbc384b66215de7c64b5cde62f.jpg)
Gemini Pro總結
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-be6ef953bdac6bb7e5928782181d8032.jpg)
SEC文件測驗
我們將同一份pdf文件,分別給Bard(使用Gemini Pro模型)與Claude 2進行測試,結果如下:
Claude 2:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-c379297168c860207133577666a32ef0.jpg)
Google Bard(使用Gemini Pro模型)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-005e92cb5c066337922297afabe481e1.jpg)
將一開始總結圖變成Excel
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-2beac44737757d6fec8d66dbee153078.jpg)
既然都把文件上傳至 Google Drive,然後透過Google Bard進行自動生成摘要或總結了,那麼,進行「文字檢索」也是很合理的吧?
既然有了「文字檢索」,那再來一個「全文檢索」
那麼,將逐字稿內容快速整理成重點,也是很重要的體驗。
在此示範「聲音轉文字」的情境應用:
在此示範「如何快速觀看 YouTube 影片」的應用:
在此示範「Gmail自動生成回覆」的應用
一次可以夾帶5個以上的pdf文件進行摘要:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202401/mobile01-364870109359cfc21584f52eea528b24.jpg)
生成圖片:
文字對話紀錄分析:
英文:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-68198efddcaa2455612751f61672003b.jpg)
中文:
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-a151c37d8fddbcea00f4ffac37f8bb6a.jpg)
麻將
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-bd7b499fc239eb32037c71566ee8abe3.jpg)
![[動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202402/mobile01-827d9ad5cf1fad8063bc3cdad8e90943.jpg)
---------------------------------------
西元2023年12月8日突發事件:
Google 坦承:Gemini 影片「經過編輯」,不是口頭提示
Gemini 示範影片造假?Google DeepMind 澄清:影片都是真的
事件懶人包:由於Oriol Vinyals在X社群(推特)公開解釋的時候,是全程以Gemini Pro來解釋Gemini模型,而此事到了外媒轉述內容的時候,就直接變成了所謂的造假疑雲、斷章取義,然後又遇到一群不喜歡求證、不喜歡實事求是的讀者們,最後就變成三人成虎的局面。
![點我看大圖 [動眼看] Gemini Pro的Ai模型實測:圖片推理分析 + 生成YT影片摘要 + 文件讀取(2024/02/02更新)](https://attach.mobile01.com/attach/202312/mobile01-43a6d12ee2c6f03bea608acd490e5c24.jpg)
(圖片來源:https://twitter.com/OriolVinyalsML/status/1732885990291775553?s=20)
這裡有樣本的網路中國象棋對弈影片,可以拿去截圖測試棋局勝負,可以透過手邊擁有已開放的Google Bard英文版(採用Gemini Pro模型)合理推論出,Gemini Ultra模型本身到底有沒有造假的可能性。
至於,我選用中國象棋,是因為要測試該AI模型,是否已經具備理解A、B、C、D、E物件之間的關聯性之邏輯推論。這種測試,對於一群會精通棋類領域的人類來說,是再簡單不過的普通小事,通常只要棋下到一半(光只是一張截圖的象棋內容,不用看完整個對弈流程),就能直接輕易斷言最後的勝負結果了。
實測使用Gemini Pro網路中國象棋勝負,全程一鏡到底,結果如下
另外,如果媒體(含自媒體)要質疑Google發表的Gemini模型是造假,那這個在西元2023年7月28日公開展示的多模態影片成果,又要怎麼去質疑背後技術是造假?搞不好西元2023年12月6日發表的Gemini模型,就是利用這個RT-2實體機器人的模型技術+Alpha GO所組成的多模態底層模型-Gemini。
延伸閱讀:
Google發表首個可同時理解文字與視覺,並完成任務的Robotic Transformer 2 - iThome
AI 攻進實體世界?Google 新語言模型 PaLM-E,可讓機器人自動拿取零食
Google 新發表 PaLM-E 語言模型,能用「說」的操作機械人完成任務
RT-2: New model translates vision and language into action
西元2023年12月11日更新:
網路上已經有人重現了與Google發表與Gemini模型一樣的效果橋段(Google的Demo只是剪掉了延遲的片段部分),基本上就跟拿圖片辨識一樣,唯獨只是沒有展現Ai模型在影像領域的推理能力這件事。
延伸閱讀:
Meta首席AI科學家楊立昆:短期不會出現超級AI
西元2023年12月15日更新:
最後,補上一段Gemini Pro開發版的影片分析能力











































































































