英伟达发布音频AI模型Fugatto

作者：文少

责任编辑：刘沙

来源：电脑商情在线

时间： 2024-11-26 11:25

　　英伟达（Nvidia）最近开发了一种新型人工智能（AI）模型Fugatto：Foundational Generative Audio Transformer Opus 1，它能够创造声音效果、改变人的发音方式，并根据自然语言提示生成音乐。

　　尽管英伟达目前没有宣布发布这项技术的计划，但其潜在的应用范围广泛，可能对音乐、娱乐和翻译服务等多个行业产生重大影响。

　　英伟达应用深度学习研究副总裁Bryan Catanzaro表示，Fugatto的激动人心之处在于其能够根据要求发出特定的声音，极大地扩展了其应用的可能性。与市场上其他只能合成语音或为音乐添加音效的模型不同，Fugatto能够实现这些功能的全部。Fugatto可以被视为视频和图像生成模型的音频版本。

　　Fugatto是首个具有新兴特性的基础模型，能够混合经过训练的元素，并遵循自由形式的指令。该模型可以通过文字提示生成音频、处理用户上传的音频文件，实现语言翻译同时保持原声，将简单曲调转化为管弦乐表演，或在音乐中添加不同的节拍。此外，用户还可以上传文档，让模型用指定的声音朗读，甚至可以让模型发出带有情感的声音。

　　不过，Catanzaro也指出，Fugatto并不完美，它可能会引发艺术家、音响工程师等相关领域的担忧，但是它也可以成为艺术家探索的新工具，帮助音乐家、音响工程师和其他音频专业人士，激发新的音乐形式和音频创作的灵感。

英伟达发布音频AI模型Fugatto

精彩专题

智库专家