2024年6月22日,在华为开发者大会2024(HDC 2024)上,天图万境与华为云携手推出了“视频声效大模型”解决方案,乍一看,不就又是一个音视频大模型嘛,可听完天图万境创始人图拉古的讲述,我们看到跨行业的人做AI进入了“变态”的地步,准确的讲,这种方法正在启迪AI超越人类。
按照通常的理解,大家修改架构,不管是大热的transformer,还是sora的dit,大家都在用大力出奇迹的方法,体现自家优势。
图拉古的研发似乎为行业找到了新的思路,人类的大脑可以处理非常复杂的事情,但是功耗峰值也就45瓦,如何让AI按照这样的方式进化,是全球科学家正在研究的方向。
大会上,图拉古谈到一种“联级神经元”的方法。他表示,人们通常讲到多模态,就好像是让一个人学会这个世界上所有的技能,顶级的手术医学技能,顶级的音乐演奏技能,顶级的微积分计算,顶级的赛车手等等,这显然是一件超级难的事情。但在事情期初,人们往往会过于乐观或者过度自信,比如当你的孩子刚出生,你也许就会幻想他聪明优秀,万人追捧,学会琴棋书画,舞得剑戟刀枪,可随着孩子慢慢长大,你也许会看到孩子另一面的特长,而不是面面俱到。
天图万境创始人 图拉古
图拉古和其团队推出一种全新设计过的moe框架,被他们称为“联级神经元”框架,而传统的MoE的概念起源于 1991 年的论文 Adaptive Mixture of Local Experts(https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf)。这个概念与集成学习方法相似,旨在为由多个单独网络组成的系统并建立一个监管机制。在这种系统中,每个网络处理训练样本的不同子集,专注于输入空间的特定区域。
图拉古认为,类全新的moe应该是一种类脑框架,需要把每一个专业的垂直 AI 模型作为一个神经元看待,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责平衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,靠生物电通讯。
2019年时,世界上迎来了一台十分特殊的手术,整个手术室充满了浪漫古典的旋律,这是以色列的医生给一位著名音乐家做手术时,为了保证他的小提琴技能不受影响,从而在手术过程中让他保持头脑清醒地拉了几个小时的小提琴。
还有一些事情,比如我们喝酒喝醉后,小脑会受到影响,所以人们走起路来左右摇摆,但是语言区还可以让你思维活跃的表达,这样的例子数不胜数。
仿照这样的大脑构架,我们可以把每个专用AI模型当做一个“神经元”来看待,让其中一个充当调度的AI,负责实现生物电的调度中心,让它通知其他对应的“AI神经元”,执行对应任务。多个“AI”神经元之间通过调度AI来通讯,形成了类人脑的“联级神经元”,每次行动能量消耗极低、算力极少,但是却可以完美准确的完成任务。
剩下的问题就是,如何教会AI进行学习和判断了。人类大脑获得的大部分信息,都是通过听觉和视觉来感知认识世界的,那我们也必须按照这样的方式去训练 AI,因为生命体已经用了5亿4000年来证明这种方式是最优解。
人类看到的世界是立体的,通常人们会用激光雷达来测量立体世界,这显然不是人类的进化方式。后来,人们用多目组成类人左右眼的形式,计算视差,获得立体世界。可是我们知道,人类闭上一只眼睛的时候,也可以准确的拿到面前的水杯,也可以知道自己距离物体的距离,甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力,可以在单眼下获得准确稳定的 ,而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本,实现了通过单目摄像头实时获取稳定的空间感知图,实现了世界首个空间计算AI。
天图万境紧接着推出了认识物体,认识世界的AI分割模型,这个模型最早用在电影抠像里,天图万境并没有过早地披露这一信息,直到今年,天图万境才告知大家,他们的抠像技术实际上是在训练AI认识世界,而并非在抠绿。他们在已有的图像上做分割,让机器知道画面里的物体都是什么,并理解在设定情景下什么物体应该保留或者去掉,甚至还可以执行其他特定的决策。
确实,如果说训练认识世界的数据,没什么比电影数据更具有想象力了,上天遁地,无所不能。而天图万境已经拥有了全亚洲最大的物理数据集和分割数据集,并正在提供给华为盘古大模型做专业训练。
除了通过眼睛认识世界,理解世界,听觉也是人类感知世界的重要方式。人类闭上眼睛,就可以知道是鸟叫还是虫鸣,可以听呼啸而过的车声,判断车辆的远近距离,甚至通过听到熟人的音色,还可以在众多朋友中判断这个人是谁。图拉古希望机器也有这样的能力。
现在,天图万境利用自己的AI感知视听技术,正在实现这一远大愿景。他们与华为云携手推出了“视频声效大模型”解决方案,正在向我们证明这一全新设计的moe类脑框架的前沿技术的可行。
该技术支持用户仅需上传一个视频,不需要输入任何提示词,就可以获得连续的音频,这个音频包含了音色、声场、动态数量等等。比如一辆火车从远及近开来,你就可以获得一个从小到大的声音;一个石头落入水中,你就可以听到石头落水的声音,甚至还包含那种不同物质传输的不同声音效果。更离谱的是,你可以听到泛起涟漪后的微弱声音,还有火箭发射巨大引擎的轰鸣声。
乍一看,这似乎没有什么了不起。可这正是图拉古之前所描述的愿景,让我们重新审视这个空间智能AI。
首先,这种复杂的处理运算,竟然是运行在一个本地消费级显卡上,更离谱的是,几乎是实时运行。
为什么说更离谱呢?首先,AI要识别数字的“物理世界”,比如“看懂”这是火箭还是雷电,鸟群是乌鸦还是海鸥,这辆车是火车还是汽车,如果是火车,那是蒸汽火车还是电动火车等等。其次,AI还要知道火车的声音是什么样,火箭的声音是什么样,打雷闪电又是什么样,大的雷电和小的雷电声音有何不同,海鸥怎么叫等等。紧接着,AI要知道这里边的空间关系是什么,比如会不会有吸音,有没有混响,伪音。最难点在于,AI还要知道这个声源的运动关系,依托于运动关系做出即刻的声场效果,产生动态声音。对于成片画面而言,就是每一个声音都要跟画面完全匹配,出现闪电就要响,还要计算声音和光速的传播关系,看到闪电多久后才能有声音传播起来。当汽车急刹车的时候,还要出现刹车的声音等等;还要知道每一组不同的材质组合会发出什么样的声音。
在“视频声效大模型”解决方案发布之前,人们认识图拉古和天图万境,仅仅认为这是一家电影技术公司。是的,他们在电影技术领域有着远超同行的技术和绝对领先研究,但是人们不知道,他们的抠绿不是抠绿,而是在分割画面;他们的还原不是还原,而是在计算空间,他们的音频也不只是音频,而是让AI理解世界。
所以,图拉古和他团队此次发布的大模型也不是大模型,是AI时代的一股清流,是一种真正经过了人脑 思考的结果,不是盲从产业的习惯性跟风或是恐惧性前进。
最后,引用图拉古的话作为结束语:
“一个伟大的时代,会在一种良性循环中,徐徐展开;人类、AI、机器和谐相处,互帮互助的美好愿景,正在向我们阔步走来。”
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )