据美国科技博客Gizmodo报道,本周《麻省理工科技评论》(Technology Review)杂志发布的一篇论文披露了谷歌研发的新系统DeepStereo,该系统可以通过人工智能技术将一系列照片无缝组合成为视频。
论文作者名为约翰-弗林(John Flynn),是一名谷歌工程师,其他三位合著者也都在谷歌工作。在论文中,弗林阐述了谷歌研发DeepStereo系统的全过程。
早在DeepStereo之前,就有类似利用静态图片输出动画的技术存在。美国计算机协会计算机图形专业组(SIGGRAPH)就曾通过网上图像制作过延时动画。
但与其他静态图像生成动画技术相比,DeepStereo系统最大的不同在于,它可以猜测出图像的缺失部分,在空白处创造出来源图片中没有的新图像。据英国媒体Register报道,和传统动画利用视觉暂停的原理不同,DeepSteoreo可以“想象出”两幅静止图像之间的画面。
弗林和他的合著者在论文中写道,“这项技术与之前的产品截然不同,我们尝试采用新型 架构直接合成新图像,不需要预先设置景深、焦距等训练数据。”
该系统背后的网络架构原理十分复杂,借鉴了各种先例。但作者在文中介绍了该技术的独到之处:系统在工作时会采用两套独立的网络架构。其中之一会根据已有的2D数据预测各个像素的景深。另外一个则会对色彩作出预测。两者共同以2D图像的形式完成对景深和色彩的预测,最终合成视频。
DeepStereo仍有不足之处:视频角落的画面很不清晰。“算法没有涉及到的区域往往是模糊的,无法被覆盖,也无法使用像素填充,”开发团队解释说。不过,这套系统暗藏了一个通过模糊的图源生成物体的小技巧:“移动对象在训练数据中非常常见,我们的模型可以优雅地完成这个动作:开始出现的时候是模糊的,然后逐渐转换为运动模糊效果。”
虽然该系统生成的最终产品与通过图像简单合成的动画区别不大,但该技术能够为谷歌的街景技术锦上添花。同时也能为谷歌的人工智能技术提供一个更加实用的范例。
本月,谷歌的“梦想机器人”在互联网上走红,这是该公司超级先进的人工神经网络,由谷歌的工程师团队开发而成。设计初衷是要找到一种切实可行的方法,让计算机辩认出图像中的内容。谷歌工程师正在教这些不可理喻的人工“大脑”辨识动物或架构,顺便也做做“梦”,此举令人感到震惊和恐惧。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 揭秘Neuralink脑机接口的“主刀人” 他是马斯克野心的幕后操盘手
- 京东发言人证实:刘强东章泽天夫妇遭有组织造谣,警方已介入调查
- 京东前总裁蔡磊渐冻症病情恶化,但仍坚定推动科研进展
- 美国对全球互联网用户无差别监听
- 万物智联创未来!第三届OpenHarmony技术大会在上海盛大举办
- 世界知识产权组织《2024年全球创新指数报告》显示:中国创新能力稳步提升
- 美国法官裁定谷歌败诉:必须为第三方商店开放Android系统
- 15个环节40个场景!工信部印发《智能制造典型场景参考指引(2024年版)》
- 马蜂窝十一黄金周洞察:文化作品持续发挥影响力,山西多个景区迎来客流高峰
- “待到山花烂漫时”,鸿蒙千帆会战誓师大会在华为总部举行
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。