文/ VRAR星球 R星人
2024年美国CES消费电子展(CES2024)于北京时间1月10日至1月13日在拉斯维加斯举行。今年CES展主题定为 “All together All on”,围绕“AI+”强调全球消费者电子产品的融合与协同。
在今年CES2024上发布“AI+”相关新技术的国内外企业并不少,可见去年ChatGPT大模型的爆火的确是引领了整个行业的变化。但据VRAR星球前方记者的反馈,本届CES大展除了大模型外,很多海外企业更喜欢强调基于大模型延伸出来的另外一项应用—— AI Agent 智能体 。
AI Agent 在海外是备受关注的一个话题,毕竟比尔盖茨都为之倾倒专门为它写了一篇长博客。
其中比尔盖茨有几个观点大家可以细品:
•在不久的将来,任何上网的人都能拥有一个远超今天技术水平的人工智能助手(即AI Agent);
•AI Agent会改变每个人与计算机的交互方式,将引领我们从键入命令到点击图标以来计算机领域最大的革命;
•AI Agent更加智能。它们是主动的,能够在你提出请求之前就提供建议;能够跨应用程序执行任务;能够随着时间推移而改进;
•在计算机行业,Agent将是下一个支撑应用程序与服务的平台。
AI Agent 引起了全球各界的关注,学术界、科技巨头和创业公司都纷纷开始训练自己的通用性或垂类行业、细分场景中,拥有不同交互方式和能力的 Agents 。
让比尔盖茨等大佬趋之若鹜的 Agent 到底是什么?最简单的描述其实就是——《钢铁侠》中托尼·史塔克的AI助手贾维斯。
虽然最初AI这个概念出来,一切带“智能”两个字的终端设备在宣传时都会说要给用户打造属于自己的“贾维斯”。
不可否认的是,贾维斯这样的AI 助手的确满足了人类对智能伙伴的一切想象,可靠、聪明甚至还带一点幽默,同时贾维斯拥有的情感让他更像一个人类而非单纯的系统。但很长一段时间现实中涌现的各类语音助手中,仍未出现那个具备超级智慧,属于用户自己的“贾维斯”。
而贾维斯般智能助手的宣传说法也在后续爆火的各种技术下,被市场浪潮打到岸边,直到2023年 AI Agent 的出现。
AI Agent 根据Open AI的定义来看,是以大语言模型作为大脑驱动,不仅拥有理解感知能力,更具有记忆、规划、行动和使用工具的能力,是一个能根据环境的变化作出自主决策并自动化执行完成复杂任务的系统。
目前来说,大部分的Agents 仍是通过电脑或者手机上的应用程序和用户联系。但就未来而言,一切的可穿戴设备都可能成为 Agents的载体。
比如,被誉为下一代的智能终端——AR设备。虽然从2023年起,全球宣告搭载大模型的AR厂商并不少,但是目前明确提出了 AI Agent 概念并聚焦于此的AR厂商仅李未可科技一家。
在本届CES展上,VRAR星球前方记者也遇到了参展的李未可科技,有关 Agent 的话题我们和李未可科技创始人兼CEO茹忆在现场简单地聊了一下。
CES现场茹忆向用户展示Meta Lens S3能力
CES海外用户体验李未可科技Meta Lens S3
从技术趋势来看,探索大模型应用的创业公司,基本上都是在做 Agents,所以目前来看,搭载大模型和搭载 AI Agent 区别并不大,只是各家早期布局和切入点的不同,决定了后期 Agents 能力的不同。
目前市面上大部分AR厂商接入大模型主要围绕语言和视觉,先做到让AR眼镜更懂用户,听得懂用户的话,看得懂用户看见的一切。Agent 还能根据用户的历史偏好和交互记录进行个性化“成长”。
比如,你希望Agents帮你计划一次旅行,它就像一个私人秘书一样能直接根据你目前的预算和以往的偏好帮你做好行程规划、预订机票和酒店,到达旅游地后又将化身成为导游,提供当地的交通信息和导航,推荐当地的景点和活动并进行讲解,甚至帮你做实时语言翻译等等。而且Agent做好这一切规划和服务只需要几秒的时间。
茹忆表示,目前他们刚开通的City Walk功能,就是带上Meta Lens S3 后,无需查询各类攻略,只需将游玩需求告诉小柯/零下(李未可AR眼镜中的智能助手),就能自动生成路线,让用户根据AR眼镜中规划的的路线开启City Walk,并提供所经路线的一切吃喝玩乐建议。在路过景点时小柯/零下会自动呈现出关于该地点背后的故事并进行讲解;在旅途中饿了困了都可通过小柯/零下查询到用户所处位置附近的店铺,并导航到店。
李未可用户带上Meta Lens S3 City Walk
当然,这也仅仅只是AI Agent基于语言和视觉大模型上在应用的一个能力点而已。
在去年的采访中,李未可的创始人兼CEO茹忆就说过:李未可科技将要基于多模态融合交互大模型,为用户打造出属于自己的“贾维斯”。
茹忆提到的多模态融合交互大模型,强调的是通过多方面大模型的融合和协同工作去提供更全面和丰富的交互体验。如,除了语言模型、计算机视觉模型之外,还可以增加音频处理模型、情感分析模型等等。
一个简单的例子,单纯的语言大模型仍难识别一些情绪化的表达:
从我们人类的角度来看,因为“~”的存在,这其实更偏向撒娇的语气。如果在语言大模型上融合了情感分析模型,那这个AI 就不会给出这样的“机器化”的回答。
如果再叠加上音频处理模型,那Agents就能通过对方说话语气、语调整体判断出对方的情绪是怎样的,并能给用户一些交谈建议。
目前国内外,已经有越来越多的企业加入到这场Agent 的建设及应用蓝海中。根据海外媒体报道,微软、谷歌、Meta和亚马逊等都准备将AI大模型应用在智能眼镜等可穿戴设备上。
Meta近期也展示了自己将AI Agent 融入到 Ray-Ban Meta 智能眼镜的效果。该智能眼镜可以通过AI语音助手描述用户看到哪些东西,也能通过眼镜端的摄像头识别后告诉用户应该如何搭配等新功能。
微软的Hololens 也计划通过让用户将Hololens拍下照片发送给AI Agent,让AI Agent 直接识别物体。同时,用户还可以通过对话的方式,从AI Agent 这里获得更多专业的信息。
亚马逊也表示或将推出一款能够运行多模态AI的新设备。可以看到在由大模型掀起的人工智能热潮中,大模型将成为底层基础设施。但到底哪些终端设备将成为大模型的最佳载体?手机、耳机、智能眼镜还是AR眼镜?这里面仍有很多未知性。
在 Agent 应用探索上,茹忆坚持自己几个观点:
1. AR设备作为下一代智能终端,AI大模型与AR眼镜的 融合,将极大提升后者的终端感知、认知与交互能力,进而创造全新的用户体验。
2.AI Agent 将成为 AR 眼镜的核心能力,而且不仅是交互这么简单,它可能是融合手机上所有App的能力,也有可能是一个系统。
3.在AI Agent的人格化上,茹忆认为 AI Agent应该是有具体形象而非“虚无”或是被想象成某个物品,这样才能建立人和AI Agent的情感联接,为用户提供更沉浸式的服务。
从中能看出李未可科技在Agent应用及探索方向上和国内外其他厂商的区别:即AI Agent的人格化。
目前国内外研究AI Agent的企业,无论是Meta、微软还是其他厂商在AI Agent的外在形象、人格打造上几乎为0。
但李未可科技创业之初就针对数字人李未可AI家族进行的偶像化包装,打造李未可AR眼镜的“灵魂”,塑造了个性、拥有完整背景故事的数字人IP ,并在全网获得200w粉丝关注。
李未可AI家族
而 AI 大模型的融合则是让数字人李未可AI家族“活”起来。毕竟当AI Agent不再是一串代码,而是拥有一些爱好、情绪和具体形象的“人”时,整个沟通的体验感将完全不同。
现阶段,李未可科技的重点是不断训练自研多模态交互大模型的能力,快速迭代和增加Agent的能力,让数字人李未可AI家族在人格化或者专业知识方面更加的丰富。至于 AI Agent 对医疗、教育等的专业知识方面的认知,李未可科技或自研打造更多的数字人或选择其他 Agent 来合作。
当然,茹忆也不否认现在距离大家所设想的AI Agent仍有一段距离,甚至和AR眼镜的融合也不一定会短期内拥有非常大的飞跃。但 Agent 的出现正在构建整个行业的新可能,李未可也将持续探索 Agent 在大模型红利下的最佳AR应用场景。
有关李未可科技在AI Agent + AR的更多设想以及在CES展上的更多内容,VRAR星球后续将发布现场对茹忆的采访,大家可以持续关注。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。