
蘋果在今天凌晨舉辦的 WWDC 大會中,宣布將在今年秋季推出結合了 Siri 以及 Apple Intelligence 技術的 Siri. AI。
彷彿是要在今年一口氣追上先前 AI 落後的態勢,在今天凌晨的 WWDC26 開發者大會 Keynote 上,蘋果一反過去單獨為各個裝置平台新版 OS 進行介紹的節奏,將主要重心全部著重在 AI 人工智慧部分,幾乎整場發表會中有 2/3 的時間都在講新的 Siri AI 以及將 AI 整合進目前蘋果 App 所達成的新應用情境,所以首先我們就來看這個部分。
陳拔也拍攝了一段影片方便大家了解這次的更新內容:

這次 WWDC26 的發表會在由即將卸任的 CEO Tim Cook 開場後,大部分時間仍然是由負責軟體工程的資深副總 Craig Frederighi 所主導,這也是 WWDC 的慣例了。Craig Frederighi 一開始就表示蘋果深信 AI 要圍繞著使用者的需求與應用所打造,而隨著個人 AI 運算成為趨勢,將 AI 整合到現有的蘋果裝置中,提供更個人化的 Apple Intelligence 體驗,也成為這次 Apple 主要的發展重點。

來看一下這次蘋果對於 Apple Intelligence 的架構圖,首先在核心部分仍然圍繞的裝置所打造,包括 iPhone、iPad、Mac、Apple Watch 以 Vision Pro 頭戴顯示器,而基礎仍然是蘋果自家的 Apple Foundation Models 基礎模型,可整合包括影像、語音以及文字在內的資訊,而最外層則是擴充的內容,也是 Apple Intelligence 這次擴充比較大的部分,包括個人資訊內容、世界知識、操作行為以及螢幕感知等內容來源。

當然這次在 Foundation Models 的部分仍然是跟 Google Gemini 合作,打造出下一個世代的 Foundation Models。

而這個模型會同時在終端裝置以及個人私密雲端(PCC)上進行運算,蘋果在這邊也再次強調了他們對個人資料隱私保護的重視。

而透過新模型效能的加強,讓 Apple Intelligence 對於第一層的影像、語音跟文字具備更強的理解能力,Craig 舉例在影像與理解生成的部分,新的 Apple Intelligence 能提供更好的影像生成結果、也能進行影像編輯或是依照提供的影像進行辨識回答內容等等。

另外透過裝置硬體與模型的最佳化,新的 Apple Intelligence 也提供了更強大的裝置端模型,提供更好的自然語言辨識以及文本生成能力,甚至是貼近人類口吻的 AI 語音輸出等,並且在內容部分具備更好的精確度。
而這次 Apple Intelligence 也進一步跟蘋果硬體裝置更進一步的整合,具備裝置內的個人內容理解、世界知識搜尋、裝置操作以及螢幕顯示感知等功能,讓 Apple Intelligence 更無縫的跟系統進行協作。

首先在個人內容理解部分,使用者可以依照先前累積的個人資訊,如相片、訊息或是郵件等,對 Apple Intelligence 以個人語言進行詢問,Apple Intelligence 在感知語意後就會依照個人訊息進行彙整回答,並且搭配相關的 App 進行操作。

而在往外擴展知識的部分, Apple Intelligence 會自動上網進行搜尋並且彙整知識,利用模型回答使用者的疑問。

而在 App 操作的部分,Apple Intelligence 會自動呼叫合適的 App 工具,在回答時提供操作的選項。

螢幕感知的部分則是會感測現在使用者所使用的 App 以及所顯示的內容作出相關的回應。

最後結合了包括 Siri、App 內使用的情境達成系統層級的 AI 使用體驗。
當然,Craig 在這邊也強調了蘋果一貫的隱私權保護立場,再度強調了所有的運算都是在加密過後的裝置端以及個人私密雲端上進行,蘋果不會儲存個人的資訊,並且資訊只會在執行使用者所要求的運算上,並且整個運算架構也經過獨立的隱私權專家檢驗。
接下來就是實際功能的展示啦:

首先來看新的 Siri 功能的展示,在使用方式上仍然沿用現行的 Siri 使用方式,利用硬體按鍵或是語音呼叫出 Siri 之後,就可以直接以自然語言的方式使用更先進的 Apple Intelligence 模型進行操作,而這次蘋果也推出了獨立的 Siri App,讓使用者有更彈性的使用方式。

維持跟目前 Siri 同樣的操作方式,包括利用語音啟動或是開啟動態島輸入等,但是支援了更長的語音內容以及自然語言辨識能力,可以讓使用者直接呼叫 App 應用、依照個人資料與世界知識進行搜尋回應等。

在 Keynote 中則是以搜尋音樂會來做示範,首先直接問 Siri 最近有沒有甚麼值得注意的音樂會,Siri 便會進行搜尋音樂會的相關資訊,並且回答使用者要怎麼索取票券的問題,並且設定抽票時間的提醒。

另外在螢幕內容感知的部分,則是示範了 Siri 直接辨識相片內容地點,並且提供定位導航服務的功能,還可以建議類似的新景點提供給使用者參考。

這次 Siri 的語音回答也更為生動自然,在 Keynote 上展示的真的快要跟真人自然語音差不多了,而且使用者還可以自行客製化,針對用語、語氣與聲調部分進行調整。

新版的 Siri 功能也可以延伸到 Carplay 跟 AirPods 上使用,在不方便使用手機操作的情境仍然可以提供 AI 功能。

這次新版的 Siri 也提供了更長對話以及複雜內容檔案的支援能力上,可以基於自然語言所提出的需求,整合不同的 App操作或是彙整檔案內容提供更完整的答案,並且提供了跨裝置的系統級支援。

接著就是在 iPhone 上實際示範啦,先用 Siri 搜尋世足賽的資訊。

接著詢問如果要辦一個觀看球賽的派對,可以準備甚麼適合的菜色,Siri 便會依照對決的隊伍國家,建議相關的菜色讓使用者參考,下方會提供附圖,甚至還可以生成相關菜色的食譜。

除了以現有的方式啟用 Siri 外,這次蘋果也推出獨立的 Siri App,並且在 iPhone、iPad、Mac、Apple Watch、Vision Pro 等幾乎所有硬體裝置中都有支援,在 Siri App 中可以瀏覽所有的對話問題,並且回溯先前的對話內容。

包括 Vision Pro、Mac、iPad、iPhone、Apple Watch 等硬體裝置都將具備獨立的 Siri App,在 Vision Pro 裡的甚至會以立體造型顯示。

而在這次 Siri 也具備了更強的視覺智慧,在這次新版的相機功能中,加入了Siri Mode,可以直接對所拍攝的內容進行解析提供答案。

在相機裡的 Siri 提供回答的情形。

而解析的對話結果也會彙整在 Siri App 裡面,而使用的解析模型是 Apple Foundation Model,蘋果也再度保證了這部分個人隱私權的保護。
這個相機的 Siri 模式也可用來辨識物體以及進行更進階的分析上,例如拍攝食物的話,就可以辨識這是甚麼菜色,並且解析它的營養成分,或是拍攝跟朋友一起吃飯的帳單,直接進行分帳的操作等,螢幕截圖也可以用這個功能。在 Vision OS 裡面甚至還可以偵測周邊物件進行分析等等。

至於在文字輸入部分,這次 Siri 也提供了更強大的整合書寫工具,使用者只要描述需求,Siri 就能從頭開始產出草稿,或是已撰寫的內容進行修改,快速更新內容。而在「郵件」和「訊息」App 中,Siri 能夠反映使用者與每位收件人之間的慣用語氣或是標點符號,以同樣的方式來提供建議回覆,另外這個整合書寫工具也支援了大多數的第三方 App。
至於在 Siri App 的推出時間部分,Craig 表示 Beta 版本將會在今年稍晚推出,預計應該會在 27 年版的作業系統更新前登場,不過初期僅適用於支援該功能且裝置語言設定為英文的使用者,Apple 也將陸續擴展支援更多語言。
感謝分享&介紹,蘋果要認真AI了嗎

























































































