(公众号:)按:本文为PerceptIn牵头创始人兼任CEO张哲参与今年5月29日至6月3在新加坡举办的ICRA大会的回忆,主要共享作者关于各个种类的SLAM及涉及研究应用于的观点和思维。张哲,纽约州而立大学机器人方向博士,清华大学自动化系本科。
研发方向:地图修复、方位追踪、机器人自律避障导航系统、设备末端和云端的算法优化。2009-2014年在微软公司,2014-2016年初在Magic Leap工作。右一为PerceptIn CEO张哲,正在为与会人员展示给开发者用的视觉模组2017年的ICRA大会 (International Conference on Robotics and Automation) 6月初在新加坡刚完结。
ICRA作为国际机器人顶级学术会议之一,从1984年开始到今年早已是第34个年头。现在有意愿的主办权方要提早3年申请人,即使被IEEE拒绝接受申请人沦为主办方,都必须提早两年每年自学当届主办方的经验教训。在新加坡会议现场,专门有2018澳大利亚布里斯班和2019加拿大蒙特利尔的宣传展台。
这次的ICRA是机器人学术届和工业界的一次盛会,不但来自各大洲的学校和研究机构的教授、学生、研究员们来演说或自学近期的成果,工业界机器人和“绿机器人”涉及的公司也争相前来展览和自学。机器人研究的方向和种类多样,但计算机视觉,SLAM (实时定位和建图),建图,空中机器人 (泛指各类无人机),距离感官,RGB-D感官这几个话题的track加在一起早已占到到所有track的一半左右。
笔者根据这次的大会所见所闻和自己在机器人领域十多年 (特别是在是最近一年多在PerceptIn全面前进软硬件一体化智能感官方案的产品化落地) 的切身感受,在这里和大家共享各个种类的SLAM及涉及研究应用于的观点和思维。本文纯属个人观点,专供大家参照。SLAM技术基本知识的详尽讲解请求参看笔者将近一年前的博客文章。
稠密SLAM稠密SLAM所指的是前端用从图像萃取来的较稠密的特征点而不是从深度摄像头来的密集点云,或不萃取特征点必要企图计算出来深度的必要法 (后面有专门的辩论)。稠密SLAM在理论和构建上早已渐趋成熟期,利用六轴陀螺仪imu (inertial measurement unit) 的视觉惯导融合的凸耦合方法早已沦为标配。在几何方面,稠密SLAM从前端到后端早已做到的十分精细,实在太大量算法微调的细节经常出现在论文里面,在这里荐一些较为典型的例子:特征点从哪里来的问题分成了KLT (Kanade-Lucas-Tomasi) pipeline和FREAK (Fast Retina Keypoint) pipeline: 前者的原理是基于亮度恒定、时间倒数、空间完全一致来对像素做到追踪给定,这种方法几何信息算数的好、追踪时间宽,但是不会飞舞,后者比较不飞舞但追踪时间较短,其原因是FREAK的DoG (Difference of Gaussian) 极值在邻接帧重复性劣。
特征点被如何用的问题分成了SLAM特征点和MSCKF特征点:SLAM特征点被重新加入状态向量并被改版,MSCKF特征点在测量的涉及公式中被忽视 (marginalize) 丢弃来分解位姿之间的约束。这样做到的目的在于既维持了准确性又照料到了处置时间会过于宽。
诸如此类还有很多如何用imu来选好的特征点,如何在后端优化中融合imu带给的约束,sliding window有多长,哪部分用NEON/GPU构建了,标定里面哪个参数最重要,实分数的处置在不算合理的情况怎么能更加合理等等。然而即使稠密SLAM算法日益成熟期,但对硬件的依赖度反而逆大,深层次的原因是因为算法碰的十分十分粗,对硬件的拒绝也都是十分精细并具体的,比如大家偏爱大视角镜头但大视角的边界畸变最相当严重,究竟好不好用、怎么用、用什么模型;比如照相机和imu的实时最差是确认的硬件实时,不但期望能确保顺序和微秒级的准确,还期望能在每帧图的那一刹那正好有一帧imu这样实分数才最精确;比如必须看的近又能获得精确的尺度,那必需基线拉大,那么冲到多大呢,知名的做到VINS (Visual Inertial Navigation System) 的明尼苏达大学自己搭乘的硬件是26厘米基线的双目用上165度的大视角镜头,可谓是追踪神器;再行比如宾州大学这次在ICRA公布的供SLAM跑完分的数据集,收集数据用的是自己搭乘的一套硬件,由两个第二代Tango平板,三个GoPro照相机,和一个VI Sensor (做到这个的公司早就被GoPro并购),再行再加AprilTags的marker追踪,融合后的位姿信息作为真值。PerceptIn的第一代双目惯导模组在大会的展台区惹来大家争相告知并出售,可见SLAM和各类基于计算机视觉的研究人员对一个好用的硬件市场需求十分大。
密集SLAM密集SLAM修复目前也比较较为成熟期,从最开始的KinectFusion(TSDF数据结构 + ICP) 到后来的InfiniTAM (用哈希表来索引很稠密的voxel), ElasticFusion(用surfel点回应模型后用非刚性的图结构), DynamicFusion(引进了体翘曲场这样深度数据通过体翘曲场的转换后才能带入到TSDF数据结构中去来已完成有非刚性物体的动态场景修复) 都做到的较为成熟期。工业界构建十分好的是微软公司的HoloLens,在台积电的24核DSP上把mesh simplification这些操作者都做了上去。这届ICRA上密集SLAM修复这部分,很显著显现出大家依然很讨厌基本的几何图元,比如平面,比如法向量,这里不一一赘述。侧重说道一下让笔者深感惊艳的是很基础但十分最重要的:给地图的数据结构依然有相当大程度的创意,比如这篇“SkiMap: An Efficient Mapping Framework for Robot Navigation”,这个东西的本质是“Tree of SkipLists” (笔者不告诉该翻译成为跳表树根还是树根跳表),3D空间XYZ各一层,前两层的每个节点只不过就是一个指针指向下一层,最后那层才是voxel有确实的数据,而各层有个隐蔽层是跳表,确保了查询放入移除都是O(logn)。
这个数据结构对机器人十分简单,特别是在是有所不同高度下的较慢深度检索和障碍物检测。基于事件照相机的SLAM一句话来说明event camera (不得已译为为事件照相机) 的原理就是事件照相机的每一个像素都在独立国家异步的感官接管的透射变化。对每个像素来说,“事件”的本质就是变暗或变暗,有“事件”再次发生才有输入,所以很大自然的没了“帧亲率”的概念,功耗和比特率理论上也不会很低。另一方面,事件照相机对亮度变化十分脆弱,动态范围想去120 dB,甚至在对较慢转动等剧烈运动的号召比imu还要好。
这种新的传感器大自然被很多做到方位追踪的研究者们所注目,ICRA上特别是在是欧洲的几个出名的实验室都在玩。然而从工业界比较实际的看作,这个照相机有以下三个可怕点如果不解决问题那么就无法大量普及:1) 喜,现在的价格是几千美元,现场有人说道量产了就能一美元,这似乎不了让人信服,CMOS早已应用于这么多年现在一个global shutter的CMOS也不有可能只要一美元,虽然笔者又专门到做到事件照相机的公司展台去详尽闲谈了价格的问题,获得的答案是未来两三年内随着量产是有可能降至$200-$300的;2) 大,因为每个像素的电路十分复杂,而每个像素本身的物理大小是20微米左右的,比起于很多CMOS,6μm x 6μm都算数相当大的了,那么就必要造成事件照相机的物理尺寸相当大但像素只不过很低 (比如128 x 128);3) 较少,“较少”是说道信息维度信息量过于,事件照相机的事件一般都在构图分界线处,所以现场有人就管它叫“edge detector”,但在计算机视觉整体特别是在是融合深度自学后都在往上层回头的大趋势下,只有一个事件照相机是远远不够的,这也是为什么事件照相机的厂家也在统合imu和传统相机做到在一起,但这样的话成本堪称居高不下。基于必要法的SLAM一句话来说明direct method (必要法) 的原理就是在配置文件环境亮度恒定 (brightness consistency assumption) 的前提下,对每个像素 (DTAM) 或感兴趣的像素 (Semi-Dense LSD SLAM) 的深度通过inverse depth的传达展开萃取,并大大优化来创建比较密集的地图,同时期望构建比较更加平稳的方位追踪。比起于研究了20多年的基于特征点的方法,必要法较为新的,只有五六年的历史,下面是ICRA上和必要法有关的几篇论文,主要都是通过融合额外的传感器或方法展开对原先必要法的改良。
“Direct Visual-Inertial Navigation with Analytical Preintegration”: 主要谈的是倒数时间意义下的imu kinematic model的闭式解法。“Direct Visual Odometry in Low Light Using Binary Descriptors”: 仍然基于亮度恒定的假设,转用基于二进制特征描述恒定的假设。
“Direct Monocular Odometry Using Points and Lines”: 用edge把基于特征点和基于必要法的两种方法融合一起。“Illumination Change Robustness in Direct Visual SLAM”: Census效果最差。那么必要法究竟能否大范围普及呢?笔者从工业界“较为谓较为短视较为势利”的角度来看,实在必要法两边仅靠十分失望: 1) 必要法没证明在方位追踪方面比前端用传统特征点的基于滤波 (MSCKF, SR-ISWF) 或者基于优化 (OKVIS, VINS-Mono) 要有优势,如果环境恶劣是由于光线变化,那么必要法的基于环境亮度恒定的假设也不正式成立,如果环境恶劣是由于超级轻微的高速运动,那么必要法也是得通过imu融合才能谋求不跟扔; 2) 必要法的必要益处是地图比较密集,但比较密集是针对于基于特征点的稠密而言,如果这个地图是为了做到追踪,那么基于特征点的方法早已证明可以做到得很好了,如果是为了3D修复,那么大可以用一个深度照相机,如果是被动双目的话,被动双目还原成出有密集深度本身也在大幅变革。
所以笔者指出必要法不够精致,但精致的过于强劲,或者说过于强劲到有落地价值。这次ICRA大会的SLAM还有一个十分大的方向是语义SLAM还有深度自学,企图从各个方面协助SLAM的几何部分。
这个话题十分有意思也十分大,仅限于篇幅不多赘述。大方向上学术界SLAM的比较成熟期,必定预示着工业界相当大量级的产品中构建超过产品化程度的SLAM方案,那么在工业界SLAM未来走势不会是什么样子呢?笔者有以下几点观点:1) SLAM太最重要不会造成大厂都想要享有,但有能力做高质量全套的就那么几家,这几家也能做到业界最差,比如微软公司HoloLens,谷歌Tango,苹果ARKit,留意即使实力强劲到这几家也都紧密配合自己的硬件,也不了得出一个普适方案;2) 不会有很多出货量很大但优势不出算法末端或者说不必须在算法和软件的公司,比如各大扫地机厂商,这些厂商只必须在创业公司里面滚一家方案成熟度最低、资金储备最充裕、人才储备最完善、最更容易合作的方案厂商合作就好;3) 留下国内外的SLAM初创公司做到单点技术的空间并不大,这个现象不只经常出现在SLAM上,也不会经常出现在任何一个技术的产品化道路上,然而在SLAM和“绿感官”这一块比较较为类似的是必须SLAM和智能感官的产品和方向过于多,而感官对硬件的倚赖又十分大,整体市场特别是在每个细分领域相比之下没超过饱和状态的阶段。
ICRA 2017,风起狮城,SLAM的未来早已开始。原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:雷火体育APP官网入口-www.ycydtz.com