近日,智象未来(HiDream.ai)智象大模型2.0在文生视频领域取得了重大突破,将视频生成时长从去年的15秒提升至分钟级别,这是继去年12月打破4秒时长限制后的又一技术飞跃。
智象未来(HiDream.ai)智象大模型2.0的文生视频功能在时长、画面自然度、内容和角色一致性方面均有显著提升,这得益于其自研的DiT架构。与传统U-Net架构相比,DiT架构具有更高的灵活度,能够有效提升图像和视频的生成质量。众所周知,DiT 架构的基础实现依赖于 Transformer 技术。为了进一步提升这一技术的性能,智象未来(HiDream.ai)智象大模型 2.0 对整个Transformer网络结构、训练数据的构成和训练策略上采用完全自研的模块,特别是在训练策略方面进行了 研究和改进。
该模型采用了高效的时空联合注意力机制,不仅适应了视频的空间域和时间域特征,还解决了传统注意力机制在训练过程中的速度问题。为了支持更长视频片段的训练,智象未来(HiDream.ai)智象大模型2.0能够处理几分钟甚至十几分钟的视频片段,使得直接输出分钟级时长的视频成为可能。同时,智象未来(HiDream.ai)还自研了视频描述生成的Captioning Model,实现了对视频内容的详细且精准描述。
在训练策略上,智象未来(HiDream.ai)智象大模型2.0利用不同长度的视频片段进行视频和图片数据的联合训练,并动态调整不同长度视频的采样率,以完成长镜头训练。此外,模型还根据用户反馈数据进行强化学习,进一步优化性能。
从原来的15秒左右延长至分钟级别,智象未来(HiDream.ai)的智象大模型2.0现已实现视频生成时长的显著提升,达到了行业领先水平。除了视频时长进入分钟级别这一重大进步外,此次升级的另一个亮点是视频时长和尺寸的可变性。以往的视频生成模型通常是预设固定时长,用户无法进行选择。而智象未来(HiDream.ai)则将选择权交给了用户,用户既可以直接指定视频时长,也可以根据输入的Prompt内容,让系统动态判断。内容复杂时,系统会生成较长视频;内容简单时,则生成较短视频,以这种动态调整的方式,自适应地满足用户的创作需求。同时,视频的尺寸也可根据用户需求进行定制,这一灵活的设计大幅提升了用户体验。
值得一提的是,智象未来(HiDream.ai)的智象大模型2.0在视频画面观感上也有了显著的提升,物体动作表现得更加自然流畅,细节渲染更为精细,并且支持了4K超清画质。随着这次技术升级,智象未来(HiDream.ai)智象大模型2.0正朝着生成更高质量的多镜头视频方向快速发展,并向L3阶段加速前进。据了解,升级后的文生视频功能即将投入使用,届时用户将能够体验到更加丰富和高质量的视频生成服务。
业内人士表示,随着智象未来(HiDream.ai)智象大模型2.0的不断完善和升级,其有望为视频内容创作领域带来更多革命性的变化,助力广大用户轻松实现创意变现,推动整个行业迈向更加广阔的发展空间。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )