美团推出 SOTA 级虚拟人视频生成模型 LongCat-Video-Avatar
CBINEWS
责任编辑:张琳
电脑商情在线
时间:2025-12-19 11:56
美团 视频生成模型 LongCat
近日,美团旗下LongCat团队公开了其最新视频生成模型LongCat-Video-Avatar的开源计划,这标志着虚拟人技术领域的新里程碑。该模型在生成长视频方面表现卓越,具备多项关键功能,吸引了众多开发者的兴趣。
LongCat-Video-Avatar延续了前代LongCat-Video的“单一模型支持多任务”设计思路,原生支持音频文本转视频、音频文本图像转视频以及视频续写等应用。相比上一代产品InfiniteTalk,该模型在动作逼真度、视频流畅性和角色身份一致性方面实现了显著优化,旨在为开发者提供更高效实用的创作工具。
模型的核心创新之一是采用Cross-Chunk Latent Stitching训练策略,有效解决了长视频生成中的视觉质量下降问题。通过在隐空间进行特征替换,它不仅消除了重复解码导致的画质损失,还大幅提升了生成效率。
此外,为维持长视频中的角色一致性,LongCat-Video-Avatar引入了带位置编码的参考帧注入模式和Reference Skip Attention机制。这一设计确保了生成过程中身份语义的稳定性,同时避免了动作重复和僵硬现象。
在HDTF、CelebV-HQ、EMTD和EvalTalker等权威数据集上的测试显示,LongCat-Video-Avatar在多个核心指标上达到领先水平,尤其在唇音同步精度和一致性方面表现突出。大规模人工评估也证实了其在自然度和真实感上的优异反馈,展现出广阔的应用前景。
LongCat团队强调,LongCat-Video-Avatar是其数字人生成技术的持续迭代,专注于解决开发者在长视频生成中的实际挑战。团队坚持开源原则,期待通过社区协作和反馈推动技术优化。
此次发布不仅拓展了虚拟人技术的应用空间,还为数字内容创作者开辟了新路径。开发者可通过GitHub和Hugging Face平台获取该模型,探索个性化数字世界的可能性。
