阿里通义开源Qwen2-Audio,引领音频语言模型新趋势

作者: 文少

责任编辑: 刘沙

来源: 电脑商情在线

时间: 2024-08-14 14:25

  8月13日,阿里巴巴旗下的通义大模型团队宣布,其开源项目家族迎来了新成员——Qwen2-Audio,这是一款音频语言模型,能够直接处理语音信息,无需文本输入,即可进行问答和音频分析,包括人声、自然声音和音乐等。

  在多个权威评测中,Qwen2-Audio的性能超越了此前的最佳模型。

  Qwen2-Audio是通义团队在音频理解领域的最新成果,相较于上一代Qwen-Audio,新模型在声音理解和指令执行方面均有显著提升。它支持语音聊天和音频分析两种模式,能够根据用户的指令自动切换,无需依赖自动语音识别系统。

  此外,Qwen2-Audio支持超过8种语言和方言,包括中文、英语、法语、意大利语、西班牙语、德语和日语以及粤语。通义团队还开源了基础模型Qwen2-Audio-7B及其指令跟随版本Qwen2-Audio-7B-Instruct。用户可以通过Hugging Face和魔搭社区ModelScope等平台下载模型,并在魔搭社区的“创空间”中直接体验其能力。

  通义团队的这一举措不仅推动了音频理解技术的发展,也为全球开发者和研究人员提供了宝贵的资源。相关论文已入选正在举行的国际顶会ACL 2024。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255