CMU RI(卡内基梅隆大学机器人学院)的科学家正研发一种可以从头到脚读取肢体语言的计算机系统。新项目可以实时读取大规模人群的多个动作姿势,这为人与机器交互开辟了新的方式。
目前,与计算机通信主要限于打字,鼠标点击和屏幕触摸。虽然语音交互更加普及,但人类主要是用文字交流。社会活动中,半数的人际交往来自肢体语言,没有肢体语言,互动可能变得困难和费力。
让电脑读懂人类的肢体语言是一件棘手的事,包括可以被物体或其他人遮蔽的手部动作。除此之外,虽然大型数据库存在标注的面部表情和身体位置,但并没有任何手势和姿势。
CMU RI(卡内基·梅隆机器人研究院)副教授Yaser Sheikh领导的团队攻克了解决此问题一些的方法。其中之一是,通过让两个研究生站在摄像机前面,做数千种不同的姿势和手势,来为计算机提供更多的数据。
另一个是颠覆了计算机读取姿势的常规方式。计算机不只关注人本身,而是会实时检测手指的动作,人的手、手臂、腿和脸,并锁定这些动作和姿势。据团队介绍,这对观众来说特别有用。
第三部分是使用CMU的Panoptic Studio(用于大规模社交互动采集的多视角系统),它是一个有两层楼高,并嵌有500台摄像机的结构。这使计算机可以从数百个不同角度,一次采集大量的动作数据来用于研究。
机器人博士Hanbyul Joo说:"系统自动标注手的位置,单次拍摄可以让你采集一个人的500次手部动作。若手太小,无法被大多数相机标注,但是对于这项研究,我们只使用了31台高清摄像头,但仍然能够构建一个庞大的数据集。"
团队正在努力解决,把2D模型转换为3D模型,以获得更好的识别效果。最终的目标是制作一个,允许单个摄像头和笔记本电脑,从一群人那里读取姿势的系统。
当技术成熟时,CMU RI团队认为它会非常有用,不仅可以让人们通过简单的指向与机器进行交互,还可以帮助自动驾驶汽车推断行人打算何时过马路,可以用来自动辅助诊断行为障碍,并跟踪体育运动员的动作,解释他们在做什么。
系统介绍
硬件:
480个VGA摄像头,640 x 480分辨率,25 fps,使用硬件时钟同步 31个高清摄像机,1920 x 1080分辨率,30 fps,使用硬件时钟同步,与VGA摄像机定时对齐 10个KinectⅡ传感器。1920 x 1080(RGB),512 x 424(depth),30 fps,它们之间和其他传感器之间的时序对齐 5台DLP投影机,与高清摄像机同步
场景与标注:
多人
社会互动群组
3D身体姿势
3D面部地标
Transcripts + speaker ID
(本文来源于微信公众号机械鸡)
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )