Google 搜尋邁入新時代，生成式 AI、Gemini 模型全面導入！

在稍早舉行的 Google I/O 開發者大會 Day1 上，這家科技大廠一個硬體都沒發表，而是聚焦人工智慧，大力宣揚自家 AI 模型 Gemini 在搜尋上、生成式創作領域的應用，作為對 OpenAI 的回應，而作為 Google 老本行的搜尋引擎，在整合最新的 Gemini 後將以 AI Overview (AI 總覽)帶來更精準的搜尋結果，甚至還能夠進行多步驟推理、規劃等過去要拆分很多步驟進行的動作。而隨著自然語言理解和電腦視覺的進步，Google 也將帶來全新的搜尋方式如透過影片+語音，跳脫過去以文字和圖像為主的手段，為廣大使用者展示「Gemini 時代」搜尋將到來的全新高度。

Google 在 I/O 開發者大會上除了講超過 120 次「AI」，更多次以「Gemini era」強調搜尋將邁入新時代，首先是導入「AI Overview」(AI 總覽)為更長更複雜的提問帶來解答，簡單來說，Google 搜尋下方在搜尋結果之前會優先跳出 AI 彙整的答案，這邊提供原始、簡化，以及詳細 (Break it down) 三種回答風格，靠的是背後 Gemini 模型拆解關鍵字的能耐。不易外地...AI Overview 本周起將在美國率先推出，目前各位還玩不到就是，但預計年底前會登陸更多地區。

Google 搜尋邁入新時代，生成式 AI、Gemini 模型全面導入！

整合 Gemini 的 Google 搜尋現在也能夠為你的問題提供規劃，Google 將之成為「Planing in Search」，影片中的輸入搜尋欄的指令是「提供住宿大學生一個低預算、為期 7 天的微波食品飲食計畫」，AI Overview 便會在搜尋結果之前列出第 1~7 天的飲食計畫，每個食譜圖磚上都有對應的圖片與烹飪時間，它也提供客製化選項，點擊圖磚上的「取代」、在放大鏡圖案輸入要更改的內容如健康蔬食餐，Gemini 馬上就會更改推薦內容。

影片搜尋
AI Overview

除了傳統的文字搜尋，未來也能透過 AI 幫助以動態影片進行搜尋，I/O 現場示範的是用 Google Lens 智慧鏡頭對著黑膠唱盤，並以語音詢問「唱臂怎麼不會固定？」接著就會跳到搜尋介面，當然，最上方就是 AI Overview 提供的除錯 (troubleshooting) 步驟，它也順便辨識出黑膠唱盤的型號，準確度來說應該比你點進一個個網頁查看還要來得高嚇到吃手手

畢竟是以逐幀方式分析內容。

Google 搜尋邁入新時代，生成式 AI、Gemini 模型全面導入！

話說在付費版 Gemini Advanced 裡的「Gemini 1.5 Pro」版本，能展現更強大的分析與總結能力，使用者可以將 1500 頁的 PDF、三萬行的程式語言，又或是一小時的影片「餵」給 Gemini 進行資訊彙整，可以省下大量的時間，對於論文寫作這樣的高難度任務十分有幫助。Android 手機端除了各位熟悉的畫圈搜尋，Gemini 也有新花招，舉例來說在觀看 YouTube 的網球影片時詢問特定的網球規則，就能在不跳出應用程式的情況下得到 Gemini 的總結。

Gemini 側邊欄
幫助我彙整與追蹤
整理成表單
長條圖

為實現「Gemini Everywhere」願景，在搜尋之外當然是要登陸自家 Google Workspace 應用了，即日起 Gemini 1.5 Pro 便會以側邊攔的形式導入到 Gmail、Docs、Drive、Slide 裡頭，可以回答廣泛的問題並提供更有洞見的回應。例如說上圖的 Gmail 就將新增一個 Gemini 的側邊欄，這邊可以看到建議回覆、幫助我彙整與追蹤，以及彙整細節 3 個選項，選擇「幫助我彙整與追蹤」後 Gemini 會追蹤你 Gmail 中過去 30 天的資料....以上圖為例是整理消費的發票，它還會主動建議幫你整理成一個表單，甚至問它「我錢都花哪去了？」AI 還會再以長條圖回答你，只能說十分驚人啊！

Google 搜尋邁入新時代，生成式 AI、Gemini 模型全面導入！

在執行長皮采帶來精彩的開場後，Google 人工智慧研究部門 DeepMind 負責人 Demis Hassabis 也隨之登場揭露對 AI 助理的發展願景「Project Astra」，這個以 Gemini 多模態模型為基礎的概念可以視為針對前天 OpenAI 發表的升級版 ChatGPT 所做的回應。

從上方的概念影片可以看到，打開 Android 手機的相機應用，對準畫面並向 Gemini 提問，這個 AI 助理就會給予相應回應，像是詢問桌上喇叭部件的具體名稱、協助解決程式語言問題、提供生活中的靈感等，將相機對準窗外景色就能辨別所在位置，甚至還能幫助使用者找到遺忘在桌上的眼鏡，可怕的是，這個概念也將在不久後的未來成為現實...

Google 搜尋邁入新時代，生成式 AI、Gemini 模型全面導入！

而在生成式 AI 的發展上，Google 則針對影像、音樂、影片三個領域帶來更新，首先是「Imagen 3」圖像生成模型，它能更精準地理解使用者下的指令，將文字轉換成更具創造型與細節的影像，同時，模型產生的干擾元素和錯誤也將更少，它目前已可在 ImageFX 上註冊私人預覽版，而為防止生成式圖像被濫用，Imagen 3 也將利用 DeepMind 開發的 SynthID 在生成內容用上隱形的加密浮水印。第二個「Music AI Sandbox」則是與藝術家合作打造更強的 AI 音樂生成模型，這部分的亮點我個人覺得不大

而在「影片生成」領域，Google 則是發表了「Veo」以和 OpenAI 三個月前推出的 Sora 抗衡，以 DeepMind 技術開發的 Veo 可以生成長度超過 1 分鐘、最高 1080p 解析度的高品質影片，除了能夠選擇不同的視覺風格、逼真度與連貫性更強之外，該模型還能理解「縮時」、「空拍」等電影術語，藉以實現更高的創意控制，Veo 從即日起將在 VideoFX 提供私人預覽，未來也將把它的功能導入 YouTube Shorts 和其它產品之中。

圖片來源：Google、YouTube

2024-05-15 12:52 #1