檔名:
1732709220233.jpg-(153 KB, 1280x720)
AI 改變口音、合成前所未有聲音,NVIDIA 推新模型「Fugatto」
https://www.youtube.com/watch?v=qj1Sp8He6e4NVIDIA 開發全新生成式 AI 模型「Fugatto」,以文字和音訊輸入來創造聲音、對話及音樂。
Fugatto(全名為 Foundational Generative Audio Transformer Opus 1)運用文字和音訊檔案,將提示描述轉換成聲音、對話及音樂的任意組合。可根據文字提示產生一段音樂,從現有歌曲獨立出人聲部分,改變說話的口音或語氣,甚至合成前所未有的聲音。
NVIDIA 列舉 Fugatto 的應用場景,例如音樂製作人可用 Fugatto 加速歌曲製作,嘗試不同風格、聲音及樂器,還能添加音效、提升現有歌曲整體音訊品質。
面對不同地區和市場的宣傳需求,廣告公司可用 Fugatto 產生不同口音或語氣的廣告配音。語言學習工具能夠個人化,使用用戶選擇的聲音來發音。還有電玩遊戲開發者也能用 Fugatto 修改預先錄製的聲音資料,對應玩家遊戲時不斷變化的動作,或者根據文字提示和可選音訊產生新的聲音資產。
「我們希望建立一個能夠像人類一樣理解和生成聲音的模型」,NVIDIA 應用音訊研究經理 Rafael Valle 表示,他是開發 Fugatto 十多人團隊的成員之一,同時也是一位管弦樂作曲家與指揮家。「Fugatto 是我們邁向未來的第一步,音訊合成和轉換中的無監督多任務學習將根據資料和模型規模而產生」,他說。
深入了解 Fugatto
Fugatto 建立在開發團隊先前在語音建模、音訊聲碼及音訊理解等領域的工作基礎上,宣稱以開源資料進行訓練。完整版本使用 25 億參數,並在一組包含 32 個 NVIDIA H100 Tensor Core GPU 的 DGX 系統訓練而成。
這項開發工作最困難的部分是產生一個混合資料集,包含數百萬個用於訓練的音訊樣本。開發團隊採用多面向策略來產生資料和指令,擴展該模型可執行的任務範圍,做到更準確的效能,同時無需額外資料就能達成新任務。
在推理過程中,Fugatto 使用名為 ComposableART 的技術,以組合只在訓練期間單獨看到的指令,這方面具體應用如要求 Fugatto 用法國口音說出帶有悲傷情緒的文字。
值得一提的是,Fugatto 由來自世界各地的成員合力研究,包括印度、巴西、中國、約旦及韓國,大家通力合作使 Fugatto 多語言和多口音能力變得更強。
雖然 Fugatto 尚未開放測試,NVIDIA 深度學習應用研究副總裁 Bryan Catanzaro 則認為,生成式 AI 將為音樂、電玩遊戲及想要創造新事物的一般人帶來新能力。