美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar

作者： CBINEWS

责任编辑：张琳

来源：电脑商情在线

时间： 2025-12-19 11:56

近日，美团旗下LongCat团队公开了其最新视频生成模型LongCat-Video-Avatar的开源计划，这标志着虚拟人技术领域的新里程碑。该模型在生成长视频方面表现卓越，具备多项关键功能，吸引了众多开发者的兴趣。

LongCat-Video-Avatar延续了前代LongCat-Video的“单一模型支持多任务”设计思路，原生支持音频文本转视频、音频文本图像转视频以及视频续写等应用。相比上一代产品InfiniteTalk，该模型在动作逼真度、视频流畅性和角色身份一致性方面实现了显著优化，旨在为开发者提供更高效实用的创作工具。

模型的核心创新之一是采用Cross-Chunk Latent Stitching训练策略，有效解决了长视频生成中的视觉质量下降问题。通过在隐空间进行特征替换，它不仅消除了重复解码导致的画质损失，还大幅提升了生成效率。

此外，为维持长视频中的角色一致性，LongCat-Video-Avatar引入了带位置编码的参考帧注入模式和Reference Skip Attention机制。这一设计确保了生成过程中身份语义的稳定性，同时避免了动作重复和僵硬现象。

在HDTF、CelebV-HQ、EMTD和EvalTalker等权威数据集上的测试显示，LongCat-Video-Avatar在多个核心指标上达到领先水平，尤其在唇音同步精度和一致性方面表现突出。大规模人工评估也证实了其在自然度和真实感上的优异反馈，展现出广阔的应用前景。

LongCat团队强调，LongCat-Video-Avatar是其数字人生成技术的持续迭代，专注于解决开发者在长视频生成中的实际挑战。团队坚持开源原则，期待通过社区协作和反馈推动技术优化。

此次发布不仅拓展了虚拟人技术的应用空间，还为数字内容创作者开辟了新路径。开发者可通过GitHub和Hugging Face平台获取该模型，探索个性化数字世界的可能性。

美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar

精彩专题

智库专家