
以大型語言模型為基礎打造的「生成式 AI」大行其道,在引領風潮的 ChatGPT 後最受矚目的便是 7 月中旬開放繁體中文 beta 測試的 Google Bard 了,Google 台灣於今 (8/16) 日的 Decode 解密系列媒體活動中,就找來了 Bard 的靈魂人物─Google 傑出科學家紀懷新博士,針對 Bard 的發展與展望進行難得的分享。
紀懷新博士是機器學習領域的專家並在 Google DeepMind 團隊帶領大型語言模型研究,他所帶領的研究團隊不僅協助推出 Bard,也透過在 AI 與機器學習上的研究為許多 Google 產品帶來了超過 720 項改進,YouTube、Google Play 上的(神經網路)推薦系統便是其中之一。而他睽違一年回到台灣是看中台灣在生成式 AI 領域潛在的發展能力,希望能花點時間和 Google 台灣員工進行交流。
- 大型語言模型發展
- 多任務語言模型
- LaMDA
紀懷新博士首先從 Bard 的前世(?)開始分享起,Bard 是基於大型語言模型 (LLM) 所開發的對話式 AI,呼應 Google 協助人們解決問題的願景,他們對大型語言模型的使命是希望匯整全球資訊,並以自然的對話方式供大眾使用,進而使人人受惠。在過去,會因應不同任務有獨立的語言模型,現在則是將所有任務都集成單一一個大型語言模型(所以才叫 Large...),其中 2022 年發表的 LaMDA 就是為對話應用而設計,不僅參數高達千億種,重要的是它還知道如何使用搜尋引擎,為現在 Bard 的能力奠定下基礎

- Bard 發展
- 多語言能力
- 多模態模型
Google Bard 則是在今年 3 月正式推出,當時 ChatGPT 和微軟 Bing 已經問世了,也難怪有人會覺得 Google 是不是比較晚進軍生成式 AI?但看了上段所說,其實從 LaMDA 等大型語言模型開始已鋪路多年,同年 5 月則宣布採用 PaLM2 並追加像是資訊總結、支援圖片回應等,同時擁有更好的多語言理解能力,到了 7 月中旬則是正式開放繁體中文。
剛好現場也有媒體問到 Bard 所使用的算力何來

紀懷新博士將目前大型語言模型發展歸納為三個階段,分別為─預訓練 pre-training、微調 fine-tuning 以及提示 prompting,他形容「預訓練」就像是 AI 上小學,開始學習語言與基礎能力;「微調」階段則是進入到初中,具備寫作能力之外也能專精於特定任務了;「提示」則有點考前看提示
- Bard 已知限制
- 檢索增強
問及對話式 AI 與大型語言模型未來可能面臨的突破與挑戰,紀懷新博士則說,因為 Bard 還不算是一個完整的產品,而是在早期/實驗性的階段,會希望能透過跟用戶間的互動來了解大家對它的期望(例如他就想知道,用戶會想拿 Bard 來進行資訊彙整、翻譯或是學習?),而大型語言模型的限制上,則可大致分為以下幾種:
◆準確性:回應可能未必準確,尤其當詢問複雜或講求事實的主題時。
◆偏差性:回應可能反映偏見或呈現訓練資料中的特定觀點。
◆人格化:回應可能會讓人以為它有個人意見或感受。
◆偽陽性/偽陰性:可能對某些適合的提示不予回應,並提供不適合的回應。
◆惡意提示的刻意攻擊:使用者將持續尋找對大型語言模型進行壓力測試的方法。
大型語言模型存在有 AI 幻覺 (Halucination) 的問題,所謂幻覺就是完全捏造信息,表現得好像它們在講述事實一般,最廣為人知的例子就是 Google 自己年初在 Bard 宣傳影片中對於韋伯太空望遠鏡提出了不實的主張。而對於幻覺的解決方法之一便是「檢索增強」,白話來說就是教大型語言模型如何正確地運用搜尋引擎,那畢竟網路上的資訊真真假假,紀懷新博士坦言,Bard 也很難去判斷真假,答案的「正確性」就比較屬於哲學範疇了,Google 只能提供可信度較高的回答(或草稿),以及資訊來源給用戶自行判斷參考


在這場 Google Decode 解密系列媒體活動最後的 Q&A 環節,我也整理幾個各位可能感興趣的問答來做分享─
Q:未來 Bard 有機會加入台語或客家話嗎?
A:在自然語言學術研究中台語或客家話算是 low resource language,其數據收集是相當困難的,就連 Google 這樣龐大的公司也是一樣,我們得花時間和地方的研究團隊合作、交流才能拿到更有品質的數據,如果是自己做的話,品質不見得比在地的學者來的好,因此我們也是很有意願和台灣的學術機構,針對這部分進行合作的。
Q:聽聞 Bard 有聘請人工審查員,請問他們具體的工作內容為何?
A:審查員負責的事情有兩部分─評估、資料訓練。「評估」主要是看文本(回答)的品質,是要知道大型語言模型的能力能夠提升到什麼地方;而「資料訓練」主要是透過 RLFH (人類反饋強化學習)這個手段,也就是依據人類的 feedback 來訓練大型語言模型,大致上可分為預訓練、建立獎勵模型、強化學習循環構建,以及模型的優化,其目的就是要生成更符合人類喜好的文本。
Q:現在有許多學習類應用程式都開始整合生成式 AI 功能在其中,對此你怎麼看?
A:台灣有很多英語學習的需求,像 Bard 這樣的大型語言模型是能夠提供幫助的,過去中小學學生學習英語較難的是,很難有人一直不停地跟他對話(畢竟聘請一個全天候的英語教師很貴),但以後是能夠完全使用 Bard 的大型語言模型來進行對話學習,畢竟現在也能夠以語音的方式對它提問了,個人覺得(語言)學習是 Bard 一個很好的發展路線。
Q:Github 有以 GPT-4 為基礎的程式開發輔助聊天機器人 Copilot Chat,在 Bard 這邊有什麼特別強化邏輯或數學能力的應用,還是說就是使用通用的模型來處理呢?
A:在有事實 A 和事實 B 的情形下,大型語言模型便是在中間做處理並產生事實 C,這是一個邏輯能力的表現,如果 Bard 能夠產生 code 來解決這個問題、獲得產生新的知識或推理 (reasoning) 的能力,對於解決 AI 幻覺會很有幫助。
Q:台灣 Google 團隊能在 Bard 上提供什麼貢獻?在生成式 AI 這塊,對於台灣團隊或國科會等加入戰局有什麼樣的建議?
A:受益於電子工程領域發展所奠定的基礎,台灣晶片生產能力、相關(數學/物理)人才在國際上都處於領先定位,這些技術跟 AI 和機器學習發展有很大的關聯,台灣在這方面有很大的潛力,而 Google 現在軟硬體兼顧的情況下,台灣如果能夠帶入新局面,現在會是很好的機會。除了在大型語言模型上的投資發展外,上面提到的 low resource language 也是我們跟台灣在地團隊能夠進行合作的機會。

至於 Bard 發展的下一步,Google 開發團隊除了著手解決 AI 幻覺的問題外,也為了能讓大型語言模型在各種裝置上執行,在不影響其能力的前提下進行「縮小」的開發,最終以更小的模型提供等同於大型語言模型的回答與推理品質,或許還能跳脫目前網頁的形式,整合在各種不同的裝置、應用程式上面,豐富對談式 AI 的功能應用。紀懷新博士最後也分享,回想起十年前 Android 手機語音辨識成功率還是非常低,現在則幾乎都不會出什麼錯了,且能夠很好地理解使用者的提問,對話式和生成式 AI 的互動也是一樣的情況;即便大型語言模型現在還處於很早期的發展階段,但經過用戶們不斷的互動、審查員的資料訓練與優化,相信未來 AI 也能夠為我們大家的生活帶來同等的巨大變革。