阿里万相视频生成大模型开源:显存8.2GB,超越Sora不再是梦
随着科技的飞速发展,人工智能(AI)技术正在逐步渗透到我们生活的方方面面。在这个过程中,阿里云再次引领潮流,将旗下视觉生成基座模型万相2.1(Wan)向全球开发者开源。这一举措无疑将进一步推动AI技术的发展,让更多的人能够享受到AI技术带来的便利。
万相2.1是一款强大的视频生成模型,其开源不仅意味着广大开发者可以免费使用和修改代码,以适应不同的应用场景,同时也意味着学术界和产业界可以共同研究,进一步提升模型的性能。这款模型采用了最宽松的Apache2.0协议,这意味着任何组织或个人都可以使用、修改和传播该模型,但必须在使用、修改和传播的过程中,保留原作者的姓名和身份。
在参数规格方面,万相2.1提供了14B和1.3B两个选项。其中,14B规格的模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现尤为突出。在评测集VBench中,14B版本以总分86.22%的成绩超越了Sora、Luma、Pika等国内外模型,位列榜首。这一成绩无疑证明了万相2.1的强大实力。
而1.3B版本的模型则表现更为惊艳。它不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行。这无疑是一个巨大的突破,意味着更多的开发者可以以较低的成本进行二次模型开发和学术研究。值得一提的是,该模型所需的显存仅为8.2GB,这对于生成480P视频来说是足够的,这也意味着该模型在处理小型任务时同样表现出色。
在算法设计上,万相2.1基于主流的DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。其中,因果3D VAE是一个高效的编码和解码机制,通过特征缓存机制实现了无限长1080P视频的高效编解码。这一机制不仅提升了视频的质量,还减少了推理时内存占用的29%。
除此之外,万相团队还通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了推理时内存占用。这一创新不仅优化了模型的性能,还降低了模型的复杂度,使其更易于部署和运行。
在实际测试中,万相2.1在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中均达到了业界领先表现,并斩获了5项第一。这些测试结果充分证明了万相2.1的强大实力和稳定性。
总的来说,阿里云将万相视频生成大模型开源,无疑是一项具有里程碑意义的举措。这将为全球开发者提供了一个宝贵的资源,使他们能够更加方便地使用和改进视频生成模型。随着AI技术的不断发展,我们有理由相信,万相2.1将会在未来引发一场AI领域的革命,让AI技术触手可及。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )