NVIDIA 推出聲音生成 AI 模型 Fugatto 可透過文字提示或是參考音訊產生音檔就連沒聽過的聲音也能生成！

生成式 AI 可運用的範圍愈來越廣泛，除了影像、文字外，現在就連聲音就能夠靈活生成，使用者只要輸入提示語，就能夠生成音樂、語音與聲音任意組合，比起先前推出，可以用於作曲或是修改的聲音 AI 模型，提供更靈活的聲音內容創作可能！

NVIDIA 在本周發表了名為 Fugatto（Foundational Generative Audio Transformer Opus 1）的聲音生成式 AI 模型，可以根據使用者所輸入的文字，生成出音樂片段、在現有歌曲中加入或是刪減樂器音效，改變人聲的口音或是情感，甚至產生人們從未聽過的聲音，以下是 NVIDIA 官方對於 Fugatto 的介紹影片：

不過 Fugatto 在 AI 應用層面所代表的突破，是第一個能展現突現性質（emergent property）的基礎生成式 AI 模型，也就是具備由各種經過訓練的能力、進行互動所產生的能力，以及結合自由形式指令的能力。只要經過微調和少量的歌唱資料，研究人員發現它可以處理未經過預先訓練的任務，例如從文字提示產生高品質的歌聲。

Fugatto 在推論的時候，會使用一種稱為 ComposableART 的技術，將只在訓練期間單獨出現的指令組合起來，此模型提供了在指令間進行插值的能力，讓使用者可以極細微地控制文提示語指令，像是可以控制口音的輕重或悲傷的程度。像是要求用法國口音說出帶有傷感情懷的文字。

另外 Fugatto 也提供了名為時間插值（temporal interpolation）的功能，能產生隨時間變化的聲音，像是可以產生出暴風雨經過某個區域時的聲音，漸強的雷聲則慢慢消失在遠方，也能讓使用者精細控制聲景的演變方式。另外，與大多數模型只能重現所接觸過的訓練資料不同，Fugatto 能讓使用者創作出從未見過的聲景，例如雷雨伴隨著鳥鳴聲緩緩進入黎明。

在應用層面上，像是音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想，嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容，對配音套用不同的口音和情感。語言學習工具可以變得個人化，可使用說話者選擇的任何聲音，提供更貼近自身的學習效果。電玩遊戲開發人員可以使用 Fugatto 來修改遊戲裡預先錄好的資產，以配合玩家在玩遊戲時不斷變化的動作，也可以根據文字指令及可選用的音訊輸入方式，即時動態創造出新的聲音資產。

2024-11-27 10:59 #1