
生成式 AI 可運用的範圍愈來越廣泛,除了影像、文字外,現在就連聲音就能夠靈活生成,使用者只要輸入提示語,就能夠生成音樂、語音與聲音任意組合,比起先前推出,可以用於作曲或是修改的聲音 AI 模型,提供更靈活的聲音內容創作可能!
NVIDIA 在本周發表了名為 Fugatto(Foundational Generative Audio Transformer Opus 1)的聲音生成式 AI 模型,可以根據使用者所輸入的文字,生成出音樂片段、在現有歌曲中加入或是刪減樂器音效,改變人聲的口音或是情感,甚至產生人們從未聽過的聲音,以下是 NVIDIA 官方對於 Fugatto 的介紹影片:
不過 Fugatto 在 AI 應用層面所代表的突破,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是具備由各種經過訓練的能力、進行互動所產生的能力,以及結合自由形式指令的能力。只要經過微調和少量的歌唱資料,研究人員發現它可以處理未經過預先訓練的任務,例如從文字提示產生高品質的歌聲。
Fugatto 在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來,此模型提供了在指令間進行插值的能力,讓使用者可以極細微地控制文提示語指令,像是可以控制口音的輕重或悲傷的程度。像是要求用法國口音說出帶有傷感情懷的文字。
另外 Fugatto 也提供了名為時間插值(temporal interpolation)的功能,能產生隨時間變化的聲音,像是可以產生出暴風雨經過某個區域時的聲音,漸強的雷聲則慢慢消失在遠方,也能讓使用者精細控制聲景的演變方式。另外,與大多數模型只能重現所接觸過的訓練資料不同,Fugat
在應用層面上,像是音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容,