阿里通义开源Qwen2-Audio,引领音频语言模型新趋势
作者: 文少
责任编辑: 刘沙
来源: 电脑商情在线
时间: 2024-08-14 14:25
8月13日,阿里巴巴旗下的通义大模型团队宣布,其开源项目家族迎来了新成员——Qwen2-Audio,这是一款音频语言模型,能够直接处理语音信息,无需文本输入,即可进行问答和音频分析,包括人声、自然声音和音乐等。
在多个权威评测中,Qwen2-Audio的性能超越了此前的最佳模型。
Qwen2-Audio是通义团队在音频理解领域的最新成果,相较于上一代Qwen-Audio,新模型在声音理解和指令执行方面均有显著提升。它支持语音聊天和音频分析两种模式,能够根据用户的指令自动切换,无需依赖自动语音识别系统。
此外,Qwen2-Audio支持超过8种语言和方言,包括中文、英语、法语、意大利语、西班牙语、德语和日语以及粤语。通义团队还开源了基础模型Qwen2-Audio-7B及其指令跟随版本Qwen2-Audio-7B-Instruct。用户可以通过Hugging Face和魔搭社区ModelScope等平台下载模型,并在魔搭社区的“创空间”中直接体验其能力。
通义团队的这一举措不仅推动了音频理解技术的发展,也为全球开发者和研究人员提供了宝贵的资源。相关论文已入选正在举行的国际顶会ACL 2024。
