NVIDIA 推出聲音生成 AI 模型 Fugatto 可透過文字提示或是參考音訊產生音檔 就連沒聽過的聲音也能生成!

NVIDIA 推出聲音生成 AI 模型 Fugatto 可透過文字提示或是參考音訊產生音檔 就連沒聽過的聲音也能生成!

生成式 AI 可運用的範圍愈來越廣泛,除了影像、文字外,現在就連聲音就能夠靈活生成,使用者只要輸入提示語,就能夠生成音樂、語音與聲音任意組合,比起先前推出,可以用於作曲或是修改的聲音 AI 模型,提供更靈活的聲音內容創作可能!

NVIDIA 在本周發表了名為 Fugatto(Foundational Generative Audio Transformer Opus 1)的聲音生成式 AI 模型,可以根據使用者所輸入的文字,生成出音樂片段、在現有歌曲中加入或是刪減樂器音效,改變人聲的口音或是情感,甚至產生人們從未聽過的聲音,以下是 NVIDIA 官方對於 Fugatto 的介紹影片:



不過 Fugatto 在 AI 應用層面所代表的突破,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是具備由各種經過訓練的能力、進行互動所產生的能力,以及結合自由形式指令的能力。只要經過微調和少量的歌唱資料,研究人員發現它可以處理未經過預先訓練的任務,例如從文字提示產生高品質的歌聲。

Fugatto 在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來,此模型提供了在指令間進行插值的能力,讓使用者可以極細微地控制文提示語指令,像是可以控制口音的輕重或悲傷的程度。像是要求用法國口音說出帶有傷感情懷的文字。

另外 Fugatto 也提供了名為時間插值(temporal interpolation)的功能,能產生隨時間變化的聲音,像是可以產生出暴風雨經過某個區域時的聲音,漸強的雷聲則慢慢消失在遠方,也能讓使用者精細控制聲景的演變方式。另外,與大多數模型只能重現所接觸過的訓練資料不同,Fugatto 能讓使用者創作出從未見過的聲景,例如雷雨伴隨著鳥鳴聲緩緩進入黎明。

在應用層面上,像是音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容,對配音套用不同的口音和情感。語言學習工具可以變得個人化,可使用說話者選擇的任何聲音,提供更貼近自身的學習效果。電玩遊戲開發人員可以使用 Fugatto 來修改遊戲裡預先錄好的資產,以配合玩家在玩遊戲時不斷變化的動作,也可以根據文字指令及可選用的音訊輸入方式,即時動態創造出新的聲音資產。
真是驚人的發明
非常的高科技又實用
感謝分享&介紹,感覺似乎很厲害唷
科技的進步真是太神速了,一項還沒摸透,就又進化了
沒聽過的聲音都能產生
這應該是AI的強項了
可以應用層面太多了
陳拔 wrote:生成式 AI 可運用...(恕刪)
但有個ai沒有 就是語言所要表示情感 無法透過ai所表示
陳拔
上面有說可以模擬情緒語氣發出聲音
AI真是讓人又愛又怕
也許派隻貓就能搞定了。
又有新的一群人要失業了? www
關閉廣告
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!