“其实,Mavic最核心的地方在于计算机视觉”,Mavic Pro发布后大疆的一名视觉工程师如此向雷锋网强调着,彼时大家对于这款在很多方面都超越Phantom 4的无人机更多的讨论还是围绕在便携和巧妙的工业设计上,而作为其中的参与者,Mavic Pro新增的智能功能才是让他最为兴奋的。按照公开资料来看,这些新增的智能功能让Mavic Pro算得上是全球首款基于 学习的消费级无人机。
首先我们将Mavic Pro与Phantom 4对比一下,Mavic Pro新增了哪些智能功能:1. 手势自拍;2. 物体识别;3. 视觉跟随中的平行跟随、焦点跟随、 自动环绕;4.精准降落。
这里面每一个功能的背后,都是在试图解决计算机视觉和机器人学领域里最核心也是最头疼的难题,同时也是大疆隐藏最深的秘密。
手势自拍
如今很多小型无人机都自称自拍无人机,不过其实都是属于跟拍,通过跟踪人或人脸来实现拍摄,大疆在今年3月的Phantom 4已经实现过,如今包括正火的Hover Camera等无人机也都实现了这一功能。而Mavic Pro则是实实在在地实现了脱离遥控器的自拍,也就是通过手势来进行抓拍。
当你走到画面里,Mavic Pro会自己识别移动的人,并且你可以向它挥手让它来跟着你飞行,在跟踪过程中只要做出拍照手势,它就会帮你抓拍。如此一来,你就能在拍照过程中完全将遥控器放收在包里。并且即使跟踪丢失时,也可以在不需要遥控器的帮助时,重新走回画面中,让飞机继续跟随。值得一提的是,当开启GPS辅助时,飞机会融合GPS的信息来进行矫正。
对于一般的手势识别系统而言,整体的步骤大概分为三步,也就是手部的定位、建模和识别。手部建模现在主要有两种方法,2D和3D,主要是看使用了什么样的摄像头,建模好后最后再进行识别,比如你的手是张开的还是握拳的。据悉从这个3D手部模型到手势识别是有不同的方法的,有的是直接拿3D手部模型去识别,有的是把3D模型转化成2D图像,再在这个基础上利用 学习进行分类识别。目前在室内环境中,由于距离较近,手势识别的难度并不大,像微软的Kinect就在电视游戏上得到很好的应用。但在户外的场景下,在无人机上用这种摄像头远距离识别手势,大疆应该算是首个尝试的。
Mavic Pro并没有使用3D摄像头,而是通过2D主相机来进行识别的,其难度要比使用3D摄像头大很多。首先,飞机要在没有 信息的前提下准确地识别和定位画面中的人,其次,要完成一系列手部的定位、建模和动作的识别。
Mavic Pro据称使用的是 学习,而 学习对于计算设备有较高要求,一般研究者需要NVIDIA Titan X这类GPU才能实现。Titan X旧版的处理性能大概在6T的Flops(每秒计算的浮点数),而大疆使用的是联芯LC 1860,官方给出的总处理能力在8GFlops,相差大概700倍,在这么低的处理平台上做 学习,就面临着神经网络设计上的突破,训练的技巧,模型的精简与压缩,底层实现的优化等问题。
关于Mavic Pro的手势自拍,雷锋网(公众号:雷锋网)在体验过程中的感受是,反应还比较及时,大多数情况都能做到准确识别,功能方面比较好。体验方面,闪烁灯提示在阳光下比较弱,闪烁3秒后开始拍照,如果倒计时开始时加个声音提示可能会更好。
物体的检测和识别
物体的识别,是指对于画面中的主体进行分类判定。其分类方式既可以是粗粒度的类别(比如汽车),也可以细粒度的类别(比如奔驰C200、宝马X5)。物体的检测,是指在画面中自动找出感兴趣物体,并标出它们的轮廓。全世界著名的ImageNet竞赛,比拼的就是物体识别和检测的准确性。
Phantom 4的智能跟随功能的一个痛点是需要用户手动在屏幕上框出要跟随的目标,而由于小白用户常常难以做到,尤其当目标在运动中。一方面会因为框的不准确,而造成智能跟随表现不理想,另一方面对于正在运动中的物体,很难框中。而物体检测和识别技术,可以让用户实现即点即走,让智能跟随的体验有了质的提升。这次Mavic Pro可以自动检测识别多种常见物体(人、汽车、卡车、动物、船、人骑自行车或摩托车等),并号称其跟随的动作会根据不同的物体有相应的优化。
Mavic Pro对人的跟随,图片来自网络体验视频
Mavic Pro对船的跟随,图片来自网络体验视频
智能跟随的模式升级
无人机跟随主要有两种方式,一种是依靠GPS,一种是依靠视觉。GPS跟随需要用户携带额外的遥控接收器,并且依赖于空旷的环境以确保GPS信号足够强。此外,让用户最过头疼的是,GPS跟随难以保证拍摄主体在画面中。视觉跟随可以很好地克服这些缺点,但是视觉跟随的难度也比较大。由于视觉跟随过程中是没有人类交互的,告诉算法的所有信息都在第一帧的框里,这个框告诉了算法什么是目标,什么是背景,而算法并不知道的是,这个目标在其它视角的样子是什么,也不知道这个目标如果自身会改变成什么样的形态。如果目标的姿态变化过大,或者目标在另一个视角下看起来跟一开始的样子差别很大,算法还需要判断现在框里的还是不是当初那个目标,或者是不是已经变成另一个物体了。也就是说,第一帧的框,是不是能紧紧框住目标的边缘,不包含太多背景。也不遗漏掉目标的其它部分,这对于跟随的算法来说至关重要。
Phantom 4已经实现了视觉跟随,不过仅限于前方与侧前方跟随,Mavic Pro为用户带来了多种跟拍模式,包括焦点跟随,以及用户期待已久的平行跟随和自动环绕。这两个模式能够帮用户拍出一些意想不到的视频。但在这些模式下,飞机看到目标的视角和样子也千变万化,对算法的鲁棒性提出了更高的挑战。要做到低空高空都能任意跟随的话,在目标跟踪领域里也是一大难题。而Mavic Pro能够在低成本低性能的平台上实现对任意物体的跟随,并且根据目标的类型而选择合适的跟随策略进行控制。
YouTube上这则用户使用ActiveTrack的自动环绕功能的视频,其中的目标包含了各种姿势的形变,包括站起、蹲下、趴下,在水面的遮挡干扰,光线的强弱变化等等干扰因素下,ActiveTrack仍然顺利完成了跟踪任务。
精准降落
与其他大疆无人机产品一样,Mavic Pro在与地面端失去联系或低电量情况下将自动返航,并加入全新的“精准降落”功能:两台下视相机会在每次起飞时拍摄一组照片,在返航着落过程中通过对下视观测和起飞记录照片的匹配来实现厘米级别的精准降落。
Mavic Pro精准降落是用到了SLAM中的回环检测技术,飞行过程中会记录视觉传感器看到的图像信息,并且根据这些信息来进行精准降落。也就是说,它降落的时候,一直在和当时起飞的时候所看到的图像进行对比,并且持续调整自己的方向。并且最近Mavic Pro的升级更新,据说增加了识别地面是否平整,以及地面是否是水面的功能,从而很大程度提高了降落的安全性。可以看出大疆对用户体验的重视以及对产品精益求精的追求。
“史上最智能无人机”背后是大疆的成功转型
Mavic Pro发布之时,大疆用了“史上最智能无人机”来概括这些新增功能,而关于更多的细节部分则甚少提及。因此,也很少人注意到,这些功能背后是大疆早已默默地从一家“飞行相机”企业成功转型为机器人企业。
其实早在今年3月,大疆创始人汪滔曾以“欢迎来到计算机视觉时代”一语点出了Phantom 4的核心所在,同时,大疆默默把自己的描述从以前的”Flying Camera” 变为了”Flying Robot”。Phantom 4面世所带来的意义,即"机器视觉时代”的到来,以往几十年全世界人对于计算机视觉的期待仅仅停留在论文和实验室以及有限的工业场景中,而现在,计算机视觉以一种更好玩、更动感、更直接的表现形式回来了,让大众消费者都能感受到它带来的便利。而这一切,都源自大疆过去两年中在计算机视觉上所做的准备。
图片来自大疆官网
计算机视觉的结果要转化为辅助控制做决策的过程中,要能结合各个模块传感器做出实际可用的应用,要涉及到相机、云台、IMU惯导模块、气压计、GPS、超声波、前视双目、下视双目以及视觉里程计等非常多和复杂的模块。成熟的SDK架构也贡献很大,大疆的无人机和飞控都有一套非常规整的SDK(软件开发套件)提供API给第三方开发者使用。
大疆还主办各类飞行器及机器人比赛,从与福特汽车合作的SDK开发者大赛,任务是依靠目标识别进行无人机的移动汽车平台降落,到堪称最炫酷机器人比赛的全国大学生RoboMasters中的敌方机器人识别和自动瞄准,各个比赛中的视觉功能所占比例也是重中之重,而底层完善的SDK支持都是开发者效率的保障。
Robomasters中机器人正在利用计算机视觉技术对面板上的图案进行识别并选择正确的图案攻击
大疆筹办这类比赛一方面是对社会人才培养的回馈和贡献,另一方面更多也是为了人才储备,因为赢得比赛往往意味着赢得一张去大疆工作的Offer,为大疆源源不断地输送计算机视觉和控制类的顶尖人才。
另外,虽然大疆在业内一向很低调,不过在各大学术会议中则是积极者。CVPR是计算机视觉领域中最顶级的会议,在今年6月末开启的CVPR 2016上,大疆作为重要赞助商出现在了CVPR的会场,其参展的展位就在Apple、Intel、Microsoft和Google中间,而且还对与会的研究人员们做了演讲。
可以说,就在其他无人机企业还在寻找哪个方向才是正道时,大疆早就明确要走哪条路并且知道要干什么。今年大量小型无人机出现在市面上,很大原因是大家以为大疆不会做小型无人机,而Mavic Pro出来后,他们又将面临曾经跟精灵系列正面竞争的相似局面。而对于大疆来说,做大无人机还是小无人机,或是说做航拍无人机还是自拍无人机,这些并不是最重要的,只要掌握了最核心的技术,做什么样的无人机只是一个选择而已。
还记得2015年11月大疆与美剧神盾局特工主演汪可盈合作拍摄的Phantom X概念视频吗?里面汪可盈用优美的太极动作来控制无人机在空中作画。如今也不过一年时间,当时觉着天方夜谭的场景,现在再看看Mavic Pro是不是觉得很近了呢?
“其实,Mavic最核心的地方在于计算机视觉”,Mavic Pro发布后大疆的一名视觉工程师如此向雷锋网强调着,彼时大家对于这款在很多方面都超越Phantom 4的无人机更多的讨论还是围绕在便携和巧妙的工业设计上,而作为其中的参与者,Mavic Pro新增的智能功能才是让他最为兴奋的。按照公开资料来看,这些新增的智能功能让Mavic Pro算得上是全球首款基于 学习的消费级无人机。
首先我们将Mavic Pro与Phantom 4对比一下,Mavic Pro新增了哪些智能功能:1. 手势自拍;2. 物体识别;3. 视觉跟随中的平行跟随、焦点跟随、 自动环绕;4.精准降落。
这里面每一个功能的背后,都是在试图解决计算机视觉和机器人学领域里最核心也是最头疼的难题,同时也是大疆隐藏最深的秘密。
手势自拍
如今很多小型无人机都自称自拍无人机,不过其实都是属于跟拍,通过跟踪人或人脸来实现拍摄,大疆在今年3月的Phantom 4已经实现过,如今包括正火的Hover Camera等无人机也都实现了这一功能。而Mavic Pro则是实实在在地实现了脱离遥控器的自拍,也就是通过手势来进行抓拍。
当你走到画面里,Mavic Pro会自己识别移动的人,并且你可以向它挥手让它来跟着你飞行,在跟踪过程中只要做出拍照手势,它就会帮你抓拍。如此一来,你就能在拍照过程中完全将遥控器放收在包里。并且即使跟踪丢失时,也可以在不需要遥控器的帮助时,重新走回画面中,让飞机继续跟随。值得一提的是,当开启GPS辅助时,飞机会融合GPS的信息来进行矫正。
对于一般的手势识别系统而言,整体的步骤大概分为三步,也就是手部的定位、建模和识别。手部建模现在主要有两种方法,2D和3D,主要是看使用了什么样的摄像头,建模好后最后再进行识别,比如你的手是张开的还是握拳的。据悉从这个3D手部模型到手势识别是有不同的方法的,有的是直接拿3D手部模型去识别,有的是把3D模型转化成2D图像,再在这个基础上利用 学习进行分类识别。目前在室内环境中,由于距离较近,手势识别的难度并不大,像微软的Kinect就在电视游戏上得到很好的应用。但在户外的场景下,在无人机上用这种摄像头远距离识别手势,大疆应该算是首个尝试的。
Mavic Pro并没有使用3D摄像头,而是通过2D主相机来进行识别的,其难度要比使用3D摄像头大很多。首先,飞机要在没有 信息的前提下准确地识别和定位画面中的人,其次,要完成一系列手部的定位、建模和动作的识别。
Mavic Pro据称使用的是 学习,而 学习对于计算设备有较高要求,一般研究者需要NVIDIA Titan X这类GPU才能实现。Titan X旧版的处理性能大概在6T的Flops(每秒计算的浮点数),而大疆使用的是联芯LC 1860,官方给出的总处理能力在8GFlops,相差大概700倍,在这么低的处理平台上做 学习,就面临着神经网络设计上的突破,训练的技巧,模型的精简与压缩,底层实现的优化等问题。
关于Mavic Pro的手势自拍,雷锋网(公众号:雷锋网)在体验过程中的感受是,反应还比较及时,大多数情况都能做到准确识别,功能方面比较好。体验方面,闪烁灯提示在阳光下比较弱,闪烁3秒后开始拍照,如果倒计时开始时加个声音提示可能会更好。
物体的检测和识别
物体的识别,是指对于画面中的主体进行分类判定。其分类方式既可以是粗粒度的类别(比如汽车),也可以细粒度的类别(比如奔驰C200、宝马X5)。物体的检测,是指在画面中自动找出感兴趣物体,并标出它们的轮廓。全世界著名的ImageNet竞赛,比拼的就是物体识别和检测的准确性。
Phantom 4的智能跟随功能的一个痛点是需要用户手动在屏幕上框出要跟随的目标,而由于小白用户常常难以做到,尤其当目标在运动中。一方面会因为框的不准确,而造成智能跟随表现不理想,另一方面对于正在运动中的物体,很难框中。而物体检测和识别技术,可以让用户实现即点即走,让智能跟随的体验有了质的提升。这次Mavic Pro可以自动检测识别多种常见物体(人、汽车、卡车、动物、船、人骑自行车或摩托车等),并号称其跟随的动作会根据不同的物体有相应的优化。
Mavic Pro对人的跟随,图片来自网络体验视频
Mavic Pro对船的跟随,图片来自网络体验视频
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 26个入选!中国再次成为全球百强科技创新集群最多国家
- OpenAI大模型训练成本急剧攀升,2026年起每年将超过145亿美元
- 泰国AIS携手华为启动“智网慧城”计划:加速迈进L4自智网络,系统100%自行管理
- OpenAI最新预测:2029年前无法实现盈利,2026年将最多亏损140亿美元
- 新晋诺奖得主辛顿:为学生曾解雇奥特曼而自豪,OpenAI不再关注AI安全
- 消息称百度计划将“萝卜快跑”推向海外,二季度国内订单已逼近90万单
- 时隔46个月后,华为手机国内销售额重新超越苹果
- Brand Finance发布全球科技品牌价值100强:苹果第一TikTok第五华为第15
- 特斯拉将召回2.7万辆Cybertruck,上市不到一年已召回5次,部分保司拒绝承保
- 微软投资OpenAI到底有多值?仅云服务器租金收入便达10亿美元/年
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。