阿里通义开源Qwen2-Audio，引领音频语言模型新趋势

作者：文少

责任编辑：刘沙

来源：电脑商情在线

时间： 2024-08-14 14:25

　　8月13日，阿里巴巴旗下的通义大模型团队宣布，其开源项目家族迎来了新成员——Qwen2-Audio，这是一款音频语言模型，能够直接处理语音信息，无需文本输入，即可进行问答和音频分析，包括人声、自然声音和音乐等。

　　在多个权威评测中，Qwen2-Audio的性能超越了此前的最佳模型。

　　Qwen2-Audio是通义团队在音频理解领域的最新成果，相较于上一代Qwen-Audio，新模型在声音理解和指令执行方面均有显著提升。它支持语音聊天和音频分析两种模式，能够根据用户的指令自动切换，无需依赖自动语音识别系统。

　　此外，Qwen2-Audio支持超过8种语言和方言，包括中文、英语、法语、意大利语、西班牙语、德语和日语以及粤语。通义团队还开源了基础模型Qwen2-Audio-7B及其指令跟随版本Qwen2-Audio-7B-Instruct。用户可以通过Hugging Face和魔搭社区ModelScope等平台下载模型，并在魔搭社区的“创空间”中直接体验其能力。

　　通义团队的这一举措不仅推动了音频理解技术的发展，也为全球开发者和研究人员提供了宝贵的资源。相关论文已入选正在举行的国际顶会ACL 2024。

阿里通义开源Qwen2-Audio，引领音频语言模型新趋势

精彩专题

智库专家