中科慧眼孟然：为智能汽车植入眼睛和大脑

6月24日消息，今天，由汽车创新港、NewCar牛喀网主办的“预见未来：人工智能和自动驾驶技术论坛”在上海盛大举行，论坛围绕人工智能在自动驾驶汽车领域的应用实践这一话题，深入探讨驾驶辅助、自动驾驶、高精度地图、环境感知、语音识别、软件系统等技术难点和重点。作为合作支持媒体，将为您带来全程报道。

论坛邀请了沃尔沃汽车智能驾驶事业部高级经理张立存博士、地平线机器人智能驾驶业务总监李星宇，亚太机电智能网联事业部技术总监梁涛年博士，QNX大中华区总经理张人杰，吉利汽车主动安全科经理李博博士，阅面科技创始人（前阿里巴巴算法总监）赵京雷博士，慧眼科技 CEO（Imprezzeo创始人）单霆博士，上海傲硕信息科技总经理郑天堂先生，中科慧眼创始人副总经理孟然先生做主题分享。

第二位出场演讲的是中科慧眼创始人副总经理孟然，他演讲的题目是《为智能汽车植入眼睛和大脑》。

以下是演讲速记整理内容：

有请孟然先生给大家介绍“为智能汽车植入大脑和眼睛”，他是中科慧眼有限科技公司创始人副总经理。

孟然：大家好，刚才张博士讲得我觉得有很多东西对我很有帮助，因为前两天参加一个会议，我记得还有人跟我讲，他问我，你觉得多少年能够实现自动驾驶，我哆哆嗦嗦告诉他可能会有十年，因为我怕说得太长会影响到大家对这个行业的积极性和兴奋点，但是刚才张博士说得很好，就是我内心真正想的，可能在有生之年我们能看到完全的自动驾驶出现，我感觉就很不错了。

我先自我介绍一下，我们是一个民营企业，也是一个创业不久的企业，现在融资走到第二轮。中科慧眼是中科院和丰田汽车从日本回来的一个团队，现在做的不是完全的自动驾驶，而是大多数集中在感知，在感知上，我们用的是双目的方案，今天我在做这个介绍的时候，我想侧重点还是在用视觉的方式解决感知问题，我想讲一些纯技术的问题。

在讲之前请大家先看一段视频，看一看用是觉得方式怎么样解决在感知的时候所遇到的一些问题。

（播放视频）这个东西可以叫它运动估计，它是怎么做，究竟有什么用处，我给大家讲一下。大家知道我们视觉上，用在汽车上我们的处理器，哪怕是SOC，一般到30帧、40帧是顶级的，做碰撞预警并不是简单对一个目标的距离或者碰撞时间的预警，一定是对这个目标进行追踪，那么把我与它的距离，把我与它的每一个碰撞时间连成一个曲线，这样去预测下一个什么时间我会撞上它，而不是两个点或者三个点去预测一个目标。我们在预测它的时候，就要对它进行跟踪，大家知道我们现在的30帧去跟踪一个飞快速度的目标是跟踪不了的，如果我以100公里的速度往前进，这个时候有一个小孩跑进来，这个时候我不知道他是同一个目标，这个时候怎么办？我们就要在原有基础上对这个目标进行一个分析，分析完以后对它进行跟踪。这个图像说的就是什么呢？我从一个15帧的视频把它变成30帧，这里面用的就是对比。原有视频每一个点做估计，估计完以后形成新的点，所有新的点组成一个图像，把这个图像插到两帧图像里面组成一个30帧的图像，就是大伙看到的连续的效果，这是在视频感知里头做目标跟踪。

大家知道做视频检测，第一个问题要解决的是雨雾天，大家知道激光雷达对雨雾的穿透能力有限。视频，大雨大雾能不能搞定？视频在技术上可以做一定程度的减轻，也就是说，就是大家看到的去雾的效果。

这是防抖功能，用软件和算法做的一个防抖。防抖并不是没抖，没抖叫失真，防抖是去掉高频。这是在汽车上必须要做的，如果不做的话会很麻烦。

这是低光功能增强，我们选用三色的时候，本身要对低光有一个很好的范围，但是在软件里面就除此之外，硬件解决完了之后在软件里面也要有一个增强。

这个东西就是对于双目摄像头来讲，里面一些中间层的数据，它需要大家做演示和分析。这里面是双目视频里面的左眼，右眼跟它也是差不多，左右眼差不多，这是一个生成的的数据。就是与前方障碍物的距离，测距离干吗？它跟单目不一样，双目是先测距离，先算碰撞距离，一系列的点要对一个目标进行跟踪，所有的数据勾勒出来以后预测下一个点在哪儿，从而发生预警，这个是双目与单目的区别，双目是直接测距预测碰撞的时间，而单目不用测距，而是做识别，识别完以后直接预测碰撞时间。

回到PPT，刚才张博士的观点我非常同意，完全的自动驾驶一定是多传感器做融合，单纯的视觉不管是双目还是单目，都不可以做自动驾驶，这样的话风险太大了。所以一个完全的自动驾驶，一定是多个尖端传感器，每一个传感器都做到最优时候进行的一个融合，我今天只讲双目感知。

这是我们公司的情况，前期肯定是把双目用在ADAS上，当然整个的自动驾驶的路线肯定是从感知到决策，再到控制。当然后面还有一个联网，可以说它是分三步或者是分四步，我们的团队以前在日本丰田也是做自动驾驶的，当然我们的技术专长还是在双目的感知上。所以我们回国以后还是把很多的信息都给它砍掉了。

以前会对比所有传感器的优缺点，现在由于时间关系我最终只讲视觉部分，雷达不讲了，雷达目前为止，价格并不是最大的问题，最大的问题应该还是性能，性能包括探测距离、探测角度以及敏感强度，比如对黑颜色的金属，对重物体的敏感程度，而视频的方式，最起码是二维的，最低纵向也有480行，远远超过64线。

大家都会关心，究竟是单目好还是双目好？其实单目和双目并不是矛盾的，并不是说用单目就不能用双目，或者说用了双目就不能用单目。各有优缺点，我上次来的时候也有人问我，说视觉摄像头究竟能看到多少米？对于视觉来讲看到多少米跟单目和双目没有关系，是跟镜头有关系的。分辨率确定以后，放大率越高分辨力越高。所以最好的方式是什么？有多组去做，比如说有一组长焦镜头关注远处，中焦的镜头去关注中等的距离，还有一组近焦的镜头关注近处，这样的话近处视觉大，中间的视觉居中，远处的视觉比较窄，但是这样的话无法走后装，因为成本比较高。所以我们要是走后装的话一定要选择一个恰当的焦距去关注中近距的距离，可能要放到100米以外的距离了。

还有一个单目的特点是要先做分类，先做识别，单目一定要做识别，这是常识。如果说一个单目的摄像机不做识别直接测距，这句话本身是不科学的。也有很多人说Mobileye已经做得这么好了为什么要有双目，Mobileye做得好我当时说了还是有两个原因，第一个就是Mobileye的识别做得非常好，因为识别的话大家知道，做识别之前应该有特征数据进来，这个时候需要一个很庞大的数据库，或者用什么方式去做，一定要有一个特征库，不管什么形式存在的，所以Mobileye的库是用了十几年，丰富了十几年，并且这个库要保证这个识别量，这个识别率要不断的迭代和更新，这是它的第一个要素。就是做识别不困难，但是做到极致很困难，这个时候Mobileye的识别应该是做到极致了，但是即便是这样有一些未知的异情是搞不定的，比如说一个三轮车上拉着一只猪，所以这个时候没有办法做车辆的识别，所以你把这个特征加进去没有用，猪的身上还骑着一只羊怎么样，这个东西是举不胜举的。比如正规车厂做出来的汽车，正规车厂做出来的摩托车、行人这个东西识别是没有问题的，我们做过很多行人姿态、车辆姿态基本上都是可以搞定的，比如说一个抱小孩的妇女，或者搀扶着一个老人，Mobileye都可以识别出来，但是不能故意搞一些怪异的姿势。当然对于鱼和猪肯定就搞不定，如果能够搞定就不科学了，所以这是单目，一个是识别做得好，再一个就是目前里面单目的算法我相信不是一种，因为我们也在静态的时候、拐弯的时候，低速、高速的时候分别去研究过它的算法，它应该是有几套路子去走。对于单目来讲达到这种水平还是非常值得尊敬的，如果我们做单目算法的话，估计用几年是绝对赶不上它的性能，所以我们没有办法，只能弯道超车了。

大家知道双目是不需要做识别的，它是根据一个视察去反推具体，反推的距离可以非常精确，因为可以一一对比，如果成像和标定足够好是可以精确测距的。

这个是大黄蜂，在世界上仅有的几个双目相机也非常不多，就这么一两款，我们能够在实验的时候买到的，我们前期的实验还是在用它。这个东西是2万人民币，后来我拆开看了它确实值2万，因为双目有一个极大的问题，就是保证两个摄像头完全的不变，相对的位置完全都不变，但是世界上有一个完全向对不变的位置吗？尤其是高温、低温一定有热胀冷缩。它这壳子是一次成型的铸造，铸造完以后把镜头放在了钢铁上，这个钢比较厚，有几十个厘米，这样的话可以把它的型变在热胀冷缩发生的时候降低到最低，稍微有一点型变怎么办，我不知道它的方式是怎么做的。这个东西并不是用于汽车，用于室内的车辆，所以有一些误差是没有关系的。

双目相机怎么来做？双目相机在世界上没有这个东西，最起码在世界上没有用于交通方面的双目相机，本身双目相机就比较少，我们第一个要解决的就是同步曝光且参数一致，如果不同步曝光左右相机肯定不是一个场景，这个东西用链路可以搞得定，但是有一个问题来了，就是曝光参数，我们知道所有的相机都是自适应的，都是自动调焦。这些参数会导致两个差异，进而会导致所有两个图像的匹配。你自己开发一个SP，去算曝光参数，分配给两三个去使用。Sensor位置固定，当然高动态是一个最基本的要求，但是大家注意高动态必然导致信息的丢失，信息的丢失必然导致左右图像的适配，所以这个东西要做一个权衡。还有就是Sensor位置要绝对的固定，它采用的是一体化成型，直接铸造的方式，如果我们这么铸造的话，这个相机的成本估计也在万元以上，所以我们很明显不能这么干。怎么办？我们只能用软件的方式。还有一个东西就是散热。

对于双目算法来讲，什么叫好，什么叫不好？大家看看这个东西，用颜色去反映一个角度的距离，在它暖色调的时候代表距离近，冷色调代表距离很远，我不希望出现这些东西。这些东西是什么东西呢？这些东西是在你采图的时候，采到的这些场景在左右的图像上不一致，因为不一致，或者说其他的原因导致左右图像的失配，就是说没有配上没有配准，没有配准这一块就没有距离的信息，没有距离的信息可以空着也可以随机，随机就会产生危险，所以我不希望有这些没有配上的地方，我希望它是一个平滑的东西，是一个全部可以匹配的东西，这是我对算法的第一个要求。

这是我们现在所做到的效果做的一个比对，跟网上一些算法的对比。

这是一个实景与一个距离之间1：1点对点的一个对比图。双目相机拍摄到的景物实时状况和距离，从而实现碰撞预警ADAS功能。它对一个障碍物的检测实际上是二维的，它的可靠性在正常情况下是非常高的，而不是一条线或者几条线组成的，是由一个二维的东西组成一个障碍物。当然对于双目来讲并不知道这个障碍物是什么，只知道在我的车前有一个障碍物。当然你可以去做识别，预警并不要求你进行识别，但是你想知道它是什么你可以做识别，因为毕竟图像在这儿。但是作为预警来讲，对于碰撞来讲，它不是必要的，但是你可以去做的。

我希望看到的里面测量的这些东西是这样的，而不是有漏洞的。这是一些典型的算法，SGBM、ELAS，这两种算法在双目算法里面是经常会用到的一些主流算法。刚才讲的我需要平滑，第二个我希望这些小的物体能够出来，就是前面的电线杆还有树，如果出不来也会导致我的一些危险，当然地上的一些小的石头，希望这些景物可以在我的计算里面出来。

第三个是效率，我们在丰田用的是服务器来做，如果前期做后装，后期再做前装，做后装的情况下用服务器就有点搞笑了，但是我希望算法快。为什么呢？因为大家可以算笔帐，如果每小时的时速是120公里，如果每秒钟15帧率，是每走2.22米探测一次，在这个步长之间有可能探出来一个东西可能会跟它进行碰撞，因为所有的探测都是有一个频率的，只不过这个频率是很高罢了，所有的探测都不是连续的，我们希望这个频率做得越高越好。在面临这么高的一个算法效率是必须要考虑的一个问题，而不光是效果。前面讲的是效果，现在讲的是效率。所以我们把这个探测分两个阶段，第一个用GPU+GUDA的方式解决，第二个用ARM+FPGA的方式解决，30帧不足以对目标进行跟踪，一个目标的跟踪我想最起码要加倍，甚至几倍，后面用视频的方式只能对点进行适量的计算。我们对所有的目标估计效果还是非常准确的，没有出现什么问题。因为我们在路上是快速移动，对于一个目标移动中，30帧的频率不足以能够支撑。

对于用户来讲有一个好处就是不需要标定，标定是在工厂完成的，而不是在车里完成的。双目的间距不变就无需标定，当然这个标定工作是在工厂进行的。

由于时间的关系，我就给大家分享到这里，大家有问题我们可以直接交流，交流到技术上也没有问题。

提问：刚才你说的双目识别的障碍物的算法，我有点不明白，它为什么不是识别一个具体的物品远近，而是按照热力图的方式，这个原理能不能讲更明白一点？

孟然：这不是一个热力图也不是一个热图像，我在屏幕上如果写一堆数的话，你就没法看了，就是为了看得方便，所以我用颜色代表远近。为什么双目不做识别？双目就像咱们看3D电影一样，为什么看3D电影的时候能够看出来远近，是因为你戴着一个眼镜，这个眼镜实际上在是分光。就是立体电影是用双目摄像头拍的，一个左一个右，你戴的眼镜是把左边摄像头拍的图像唯一的投射到你的左眼，而把右边拍摄的图像唯一投射到你的右眼，分工完以后因为两个点接触的图像大致相同，但是又存在视差，你可以自己做一个实验，你会发现两个眼睛对于同一个目标是在左右晃动的，而这个晃动的东西我们叫视差，这个视差越大这个东西离你越近，视察越小离你越远。比如你看那个柱子跟看这个杯子在左右眼睛的视差是不一样的，近的时候视差很大，远的时候视差很小。如果在分辨率、焦距所有都固定的情况下视差是唯一对应你的距离的。它不是对具体某个物体，而是对它相机里面所有的场景和所有的点，因为所有的场景和所有的点在双目相机里都存在一个视察，每一个点都有一个视察，所以每一个点都有一个距离，这样二维场景里的距离也就出来了。

提问：刚才你提到双目摄像头里面30帧/秒的频率可能还不够，提高帧率的话，是想通过通过加帧，加到60帧或者加到更高，是这个意思吗？

孟然：不是，用芯片的方式去处理这个问题，30帧或者40帧是封顶了，目前的硬件是封顶了。目前来讲做到30帧已经很不错，因为不光是芯片的处理能力还有数据通路，比如你用任何一种传递视频的方式都有一个封顶，数据量非常大。封顶以后你说我的Sensor可以达到60帧，没有用，后面处理不过来，芯片处理不过来，数据通度不允许。还有就是有各种各样的限制，这个时候怎么办？我觉得目前做到30帧已经非常完美了，但是这个时候怎么办呢？我们去测距没有问题，就像你一边跑一边眨眼，你的眨眼频率是30秒眨30次没有问题，但是对于目标跟踪来讲30次远远不够，因为可能会快速的移动，蛇形的运动，30次可能会丢了这个目标，而你测这个目标的时候用一两个点的数据去估算下一秒钟的碰撞时间是不科学的，我是指对于一个东西你要进行连续的跟踪，你去预测我什么时候去与它进行碰撞是比较靠谱的。而对于你只采集了一个目标的几个点去预测下一个点的碰撞时间是不科学的，所以我希望连续的进行跟踪，当然即便是60帧也有可能会丢失这个目标的跟踪，也有可能。但是它只是会大大降低丢失的概率罢了，而维护一个目标，我会随着你的移动会抓着你，把所有对于你的距离、时间探测勾勒出一个曲线来，从而预测下一秒我与你的碰撞时间，完全是为了预测碰撞时间的准确性，才会去对于目标进行跟踪，而并不单纯是一帧一帧只是测距罢了。

提问：我想问的就是，因为你要对这个目标进行跟踪的话，势必会用到前面的图像，如果真的是在一个很短的时间里面冲出来一个人，可能还没有对它进行跟踪，这个事故可能已经发生了，可能30帧再去做跟踪达到的效果可能只有10帧。

孟然：你说得没错，对于目标进行追踪的目的并不是解决突然间跑出来一个人的问题，而是解决我与前方的物体碰撞时间的预测更加的精确，我对这个时间的预测更加精确，因为我是用一系列点的轨迹去预测，预测更加的精准。但是冲出来一个人，完全就得靠帧频，如果我走1.1米探测一次，你这个人正好在中间冲出来的话那没办法，所以只能单纯的提高频率。

提问：关于Sensor传感器的分辨率，分辨率现在是以什么样的分辨率？

孟然：分辨率这个问题，1280P都可以。

提问：可不可以降低分辨率提高效率？

孟然：但是效果会差，效果差，效率一定会提升，没有问题。

提问：Sensor接口是以什么为主？

孟然：这就是纯技术问题了，我们现在这个接口是我们自己开发的一个接口，私有的接口。

提问：我的问题有三个，第一个我想就算法来说，因为我现在在做静态的双目视觉的立体匹配，您刚才提到算法的匹配度，表现出来的伪色彩度有一些误匹配率，你们怎么解决这个物匹配率的问题？

孟然：这个问题我们下面私下讨论。

提问：我的问题是，可不可以这样理解，双目摄像头现在价格还是偏高的，还有芯片和硬件成本。相比市场很多做单目摄像头的，也是定位于后装，优势在哪里，未来的市场怎么去竞争？

孟然：单目和双目各有各的优势和各有各的特点，双目肯定比单目贵，这是毋庸置疑的。因为东西就用了人家的两倍，这是毋庸置疑的。我不敢说双目有什么优势，我只是说它的特点，它的特点是无需识别，这是第一个特点，视察直接转变为距离，可以对所有的障碍物进行测量，比如桌子放在高速公路上也是障碍物，不用识别。而对于单目，比如一个桌子拿车往上撞你看它会不会报警，因为在中国的道路上一切皆有可能，所以这个东西是不是它的优势，你可以自己分析一下，这是第一个。

第二个，它或许在某一个距离范围内，它的测距精度要准确一点，我不敢说双目一定要比单目准确，但是在某一个距离范围内或许测量的定位，因为是直接测量而不是估算的，通过视察映射到这个上面，并不存在什么估计，就是视察准确了距离就准确了，这个距离是相当准确的，甚至比人眼还要准确，所以它或许体验会做得很好，因为距离预测准、碰撞时间预测准就不会出现“狼来了”，不会出现多报或者少报的情况。

谢谢大家。

（该演讲内容全部由现场速记内容整理，若有错误之处敬请谅解）

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

中科慧眼孟然：为智能汽车植入眼睛和大脑

下一篇