
在稍早舉行的 Google I/O 開發者大會 Day1 上,這家科技大廠一個硬體都沒發表,而是聚焦人工智慧,大力宣揚自家 AI 模型 Gemini 在搜尋上、生成式創作領域的應用,作為對 OpenAI 的回應,而作為 Google 老本行的搜尋引擎,在整合最新的 Gemini 後將以 AI Overview (AI 總覽)帶來更精準的搜尋結果,甚至還能夠進行多步驟推理、規劃等過去要拆分很多步驟進行的動作。而隨著自然語言理解和電腦視覺的進步,Google 也將帶來全新的搜尋方式如透過影片+語音,跳脫過去以文字和圖像為主的手段,為廣大使用者展示「Gemini 時代」搜尋將到來的全新高度。
Google 在 I/O 開發者大會上除了講超過 120 次「AI」,更多次以「Gemini era」強調搜尋將邁入新時代,首先是導入「AI Overview」(AI 總覽)為更長更複雜的提問帶來解答,簡單來說,Google 搜尋下方在搜尋結果之前會優先跳出 AI 彙整的答案,這邊提供原始、簡化,以及詳細 (Break it down) 三種回答風格,靠的是背後 Gemini 模型拆解關鍵字的能耐。不易外地...AI Overview 本周起將在美國率先推出,目前各位還玩不到就是,但預計年底前會登陸更多地區。

整合 Gemini 的 Google 搜尋現在也能夠為你的問題提供規劃,Google 將之成為「Planing in Search」,影片中的輸入搜尋欄的指令是「提供住宿大學生一個低預算、為期 7 天的微波食品飲食計畫」,AI Overview 便會在搜尋結果之前列出第 1~7 天的飲食計畫,每個食譜圖磚上都有對應的圖片與烹飪時間,它也提供客製化選項,點擊圖磚上的「取代」、在放大鏡圖案輸入要更改的內容如健康蔬食餐,Gemini 馬上就會更改推薦內容。
- 影片搜尋
- AI Overview


話說在付費版 Gemini Advanced 裡的「Gemini 1.5 Pro」版本,能展現更強大的分析與總結能力,使用者可以將 1500 頁的 PDF、三萬行的程式語言,又或是一小時的影片「餵」給 Gemini 進行資訊彙整,可以省下大量的時間,對於論文寫作這樣的高難度任務十分有幫助。Android 手機端除了各位熟悉的畫圈搜尋,Gemini 也有新花招,舉例來說在觀看 YouTube 的網球影片時詢問特定的網球規則,就能在不跳出應用程式的情況下得到 Gemini 的總結。
- Gemini 側邊欄
- 幫助我彙整與追蹤
- 整理成表單
- 長條圖

在執行長皮采帶來精彩的開場後,Google 人工智慧研究部門 DeepMind 負責人 Demis Hassabis 也隨之登場揭露對 AI 助理的發展願景「Project Astra」,這個以 Gemini 多模態模型為基礎的概念可以視為針對前天 OpenAI 發表的升級版 ChatGPT 所做的回應。
從上方的概念影片可以看到,打開 Android 手機的相機應用,對準畫面並向 Gemini 提問,這個 AI 助理就會給予相應回應,像是詢問桌上喇叭部件的具體名稱、協助解決程式語言問題、提供生活中的靈感等,將相機對準窗外景色就能辨別所在位置,甚至還能幫助使用者找到遺忘在桌上的眼鏡,可怕的是,這個概念也將在不久後的未來成為現實...

而在生成式 AI 的發展上,Google 則針對影像、音樂、影片三個領域帶來更新,首先是「Imagen 3」圖像生成模型,它能更精準地理解使用者下的指令,將文字轉換成更具創造型與細節的影像,同時,模型產生的干擾元素和錯誤也將更少,它目前已可在 ImageFX 上註冊私人預覽版,而為防止生成式圖像被濫用,Imagen 3 也將利用 DeepMind 開發的 SynthID 在生成內容用上隱形的加密浮水印。第二個「Music AI Sandbox」則是與藝術家合作打造更強的 AI 音樂生成模型,這部分的亮點我個人覺得不大


而在「影片生成」領域,Google 則是發表了「Veo」以和 OpenAI 三個月前推出的 Sora 抗衡,以 DeepMind 技術開發的 Veo 可以生成長度超過 1 分鐘、最高 1080p 解析度的高品質影片,除了能夠選擇不同的視覺風格、逼真度與連貫性更強之外,該模型還能理解「縮時」、「空拍」等電影術語,藉以實現更高的創意控制,Veo 從即日起將在 VideoFX 提供私人預覽,未來也將把它的功能導入 YouTube Shorts 和其它產品之中。
圖片來源:Google、YouTube