Meta新视频同步神器,双人舞也能轻松倒立杂技?VideoJAM真的牛

Meta新视频生成框架VideoJAM:双人舞也能轻松倒立杂技?

Meta GenAI团队近日推出的全新框架VideoJAM,引发了业界的广泛关注。VideoJAM基于主流的DiT路线,却能在运动一致性上超越Sora、Gen3等模型,甚至在处理运动场景时,其运动效果更贴合物理规律,令人叹为观止。

首先,VideoJAM在处理运动场景时,视觉效果显著提升,且更加贴合物理规律。无论是吹灭蜡烛时火苗的晃动,还是用手捏史莱姆时的形状变化,甚至三个球来回抛的杂技表演,都能很好地体现出抛物线轨迹。这无疑是对现有视频生成模型的一次重大突破,使得运动一致性得到了近20%的提升。

VideoJAM的训练中引入了运动信息,这是其运动一致性提升的关键。在训练和推理阶段,VideoJAM针对经典的DiT架构进行了补充。具体来说,模型在生成视频的同时,也学习如何预测对应的运动。通过联合外观-运动表示,VideoJAM对现有视频生成模型进行了两处关键性改动,添加了输入和输出两个线性投影层。输入投影层将外观特征和运动特征拼接后映射到模型的隐藏空间,形成一个联合的潜在表示,这个潜在表示融合了静态外观信息和动态运动信息。输出投影层则从模型的联合潜在表示中解码出视频的外观预测和运动预测。

而在推理阶段,VideoJAM采用了内部引导机制,进一步增强生成视频的运动一致性。这种机制使用模型自身在每个生成步骤中预测的运动信息来动态调整生成过程,可以实时捕捉生成视频的动态变化。这使得VideoJAM能够实时调整生成过程,以捕捉动态变化,从而提升运动一致性。

消融实验表明,VideoJAM采用的光流表示和内部引导机制正是其实现高运动一致性的关键。粗略阶段重点关注大范围的运动连贯性,如整体方向和节奏;细化阶段则转向优化细节,如肢体动作的微调和物体交互的物理合理性。这种反馈机制使得模型在发现不一致时能够自动进行调整,从而提升了运动一致性。

VideoJAM的强大之处还在于它能够无缝集成到不同规模的DiT模型中。这意味着无论是大型模型还是小型模型,都可以利用VideoJAM带来的运动效果提升。这一点对于模型开发者和用户来说都极具吸引力,因为它降低了使用VideoJAM的门槛,使得更多人能够从中受益。

总的来说,VideoJAM是一个非常出色的视频生成框架,它能够在保持高质量视频生成的同时,提升运动一致性。无论是对于研究者还是开发者来说,VideoJAM都是一个值得一试的工具。我们期待看到更多使用VideoJAM创建的精彩视频作品出现。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-02-11
Meta新视频同步神器,双人舞也能轻松倒立杂技?VideoJAM真的牛
Meta新视频生成框架VideoJAM,基于DiT路线,提升运动一致性,适用于不同规模的模型,是研究者与开发者值得一试的工具。

长按扫码 阅读全文

Baidu
map