美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar

作者:

CBINEWS

责任编辑:

张琳

来源:

电脑商情在线

时间:

2025-12-19 11:56

关键字:

美团 视频生成模型 LongCat

近日,美团旗下LongCat团队公开了其最新视频生成模型LongCat-Video-Avatar的开源计划,这标志着虚拟人技术领域的新里程碑。该模型在生成长视频方面表现卓越,具备多项关键功能,吸引了众多开发者的兴趣。

LongCat-Video-Avatar延续了前代LongCat-Video的“单一模型支持多任务”设计思路,原生支持音频文本转视频、音频文本图像转视频以及视频续写等应用。相比上一代产品InfiniteTalk,该模型在动作逼真度、视频流畅性和角色身份一致性方面实现了显著优化,旨在为开发者提供更高效实用的创作工具。

模型的核心创新之一是采用Cross-Chunk Latent Stitching训练策略,有效解决了长视频生成中的视觉质量下降问题。通过在隐空间进行特征替换,它不仅消除了重复解码导致的画质损失,还大幅提升了生成效率。

此外,为维持长视频中的角色一致性,LongCat-Video-Avatar引入了带位置编码的参考帧注入模式和Reference Skip Attention机制。这一设计确保了生成过程中身份语义的稳定性,同时避免了动作重复和僵硬现象。

在HDTF、CelebV-HQ、EMTD和EvalTalker等权威数据集上的测试显示,LongCat-Video-Avatar在多个核心指标上达到领先水平,尤其在唇音同步精度和一致性方面表现突出。大规模人工评估也证实了其在自然度和真实感上的优异反馈,展现出广阔的应用前景。

LongCat团队强调,LongCat-Video-Avatar是其数字人生成技术的持续迭代,专注于解决开发者在长视频生成中的实际挑战。团队坚持开源原则,期待通过社区协作和反馈推动技术优化。

此次发布不仅拓展了虚拟人技术的应用空间,还为数字内容创作者开辟了新路径。开发者可通过GitHub和Hugging Face平台获取该模型,探索个性化数字世界的可能性。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255