英伟达发布音频AI模型Fugatto

作者: 文少

责任编辑: 刘沙

来源: 电脑商情在线

时间: 2024-11-26 11:25

  英伟达(Nvidia)最近开发了一种新型人工智能(AI)模型Fugatto:Foundational Generative Audio Transformer Opus 1,它能够创造声音效果、改变人的发音方式,并根据自然语言提示生成音乐。

  尽管英伟达目前没有宣布发布这项技术的计划,但其潜在的应用范围广泛,可能对音乐、娱乐和翻译服务等多个行业产生重大影响。

  英伟达应用深度学习研究副总裁Bryan Catanzaro表示,Fugatto的激动人心之处在于其能够根据要求发出特定的声音,极大地扩展了其应用的可能性。与市场上其他只能合成语音或为音乐添加音效的模型不同,Fugatto能够实现这些功能的全部。Fugatto可以被视为视频和图像生成模型的音频版本。

  Fugatto是首个具有新兴特性的基础模型,能够混合经过训练的元素,并遵循自由形式的指令。该模型可以通过文字提示生成音频、处理用户上传的音频文件,实现语言翻译同时保持原声,将简单曲调转化为管弦乐表演,或在音乐中添加不同的节拍。此外,用户还可以上传文档,让模型用指定的声音朗读,甚至可以让模型发出带有情感的声音。

  不过,Catanzaro也指出,Fugatto并不完美,它可能会引发艺术家、音响工程师等相关领域的担忧,但是它也可以成为艺术家探索的新工具,帮助音乐家、音响工程师和其他音频专业人士,激发新的音乐形式和音频创作的灵感。