10月9日消息,英国 AI 初创公司 Wayve 日前公布了旗下 GAIA-1 生成式模型的最新进展。
据IT之家报道,在 6 月的时候,Wayve 建立了将生成式模型用于自动驾驶的概念性验证,而在这几个月中,Wayve 公司持续扩展 GAIA-1,使其拥有 90 亿个参数,能够生成逼真的驾驶场景影片,展示自动驾驶“在各种情境的反应”,并且更好地预测未来事件。
GAIA-1 是一个可以利用不同类型的资料,包括影片、文字和动作,创建逼真驾驶场景影片的世界模型(World Model)。
GAIA-1 可对自动驾驶车辆的行为和场景特征进行细致的控制,且由于其多模态的性质,能够从多种提示模式和组合中生成相关视频。
官方提到,GAIA-1 可对环境进行学习,从而提供结构性的环境理解,协助自动驾驶系统做出明智的决策。
而“预测未来事件”是该模型的基本关键能力,对未来的准确预测,可以让自动驾驶车辆预先知道即将发生的事件,从而规划对应的动作,增加汽车上路时的安全性和效率。
据悉,GAIA-1 会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不同类型的输入。
GAIA-1 的核心,是一个自回归 Transformer,能够预测序列中下一组图像 token,世界模型不只考虑过去的图像 token,还参照文字和动作 token 的上下文资讯,运用这个方法所生成的图像 token,不仅会在视觉上连贯,而且和预期的文字和动作指引保持一致。
在此之后,模型会启动视频解码器这个阶段被启动,主要功能是将这些图像 token 转换回像素空间,视频解码器作为一个扩散模型,其强大之处主要在于可保证生成的影片,具语义意义、视觉准确且时间序一致性。
GAIA-1 的世界模型经过 64 个英伟达 A100 GPU 上长达 15 天的训练,包含了高达 65 亿个参数,而视频解码器则在 32 个英伟达 A100 GPU 上训练了 15 天,总共拥有 26 亿个参数。
GAIA-1 的主要价值,是在自动驾驶中引入生成式世界模型的概念,透过整合影片、文本和动作输入,展示多模态学习在创建多样化驾驶情境的潜力,而且透过整合世界模型与驾驶模型,使驾驶模型能够更好地理解自己的决策,并且泛化至真实世界的情境中,进而提升自动驾驶系统的能力。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 阿里巴巴拟发行 26.5 亿美元和 170 亿人民币债券
- 腾讯音乐Q3持续稳健增长:总收入70.2亿元,付费用户数1.19亿
- 苹果Q4营收949亿美元同比增6%,在华营收微降
- 三星电子Q3营收79万亿韩元,营业利润受一次性成本影响下滑
- 赛力斯已向华为支付23亿,购买引望10%股权
- 格力电器三季度营收同比降超15%,净利润逆势增长
- 合合信息2024年前三季度业绩稳健:营收增长超21%,净利润增长超11%
- 台积电四季度营收有望再攀高峰,预计超260亿美元刷新纪录
- 韩国三星电子决定退出LED业务,市值蒸发超4600亿元
- 鸿蒙概念龙头大涨超9倍,北交所与新能源板块引领A股强势行情
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。