选自Google AI Blog
作者:Adel Ahmadyan、Tingbo Hou
机械之心编译
机械之心编辑部
通例目的检测,已经不能知足移动端了,谷歌开源的 3D 实时目的检测领会一下?
目的检测是一个获得普遍研究的盘算机视觉问题,但大多数研究侧重于 2D 目的检测。值的注重的是,2D 展望仅能提供 2D 界限框。以是,若是扩展至 3D 展望,人们可以捕捉到目的的巨细、位置与偏向,从而在机械人、无人驾驶、图像检索和 AR 等领域获得更普遍的应用。
只管 2D 目的检测已经相当成熟,并在工业界普遍应用,但由于数据缺乏以及同种别下目的形状和外观的多样性,从 2D 转向 3D 目的检测依然会面临较大的挑战。
今日,谷歌宣布推出 MediaPipe Objectron,这是一种适用于一样平常物体的移动端实时 3D 目的检测 pipeline,它能够检测 2D 图像中的目的,并通过新创建 3D 数据集上训练的机械学习模子来估量这些目的的姿态和巨细。
详细而言,MediaPipe 是一个用于构建 pipeline 进而处置差别模态感知数据的跨平台开源框架,Objectron 则在 MediaPipe 中实现,其能够在移动装备上实时盘算目的的定向 3D 界限框。
从单个图像举行 3D 目的检测。MediaPipe 可以在移动端上实时确认目的工具的位置、偏向以及巨细。整个模子异常精简,速率也异常快,研究者将整套方案都开源了出来。
框架地址:https://github.com/google/mediapipe/
项目地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md
MediaPipe 是谷歌去年 7 月份公布的一个多媒体框架,它在安卓、IOS 网页等种种平台上都能应用机械学习媒体模子。昨日 MediaPipe 公布 0.7 版,并加入了移动端试试 3D 检测模子。现在 MediaPipe 包罗人脸检测、手部检测、头发支解和视频自动横竖屏转换等功效。
获取真实的 3D 训练数据
随着依赖于 3D 传感器(如 LIDAR)的自动驾驶行业生长普及,现在已有大量街道场景的 3D 数据,但对于一样平常生涯中拥有更细颗粒度的目的来说,有标注的 3D 数据集就异常有限了。以是,为领会决此问题,谷歌团队使用了 AR 会话(Session)数据开发了一种全新的数据 Pipeline。
此外,随着 ARCore 以及 ARkit 的泛起,数亿体量的智能手机拥有了 AR 功效,而且能够通过 AR 会话取获取更多的信息,包罗相机姿态、希罕 3D 点云、光照估量以及平面区域估量。
为了符号真实数据,团队构建了一个全新的标注工具,而且与 AR 会话数据一起使用,该标注工具使标注者得以快速符号目的的 3D 界限框。
该工具使用了分屏视图来显示 2D 的视频帧,同时在其左侧叠加 3D 界限框,并在右侧显示 3D 点云,摄像机方位以及所检测到的水平面。标注器在 3D 视图中绘制 3D 界限框,并通过查看 2D 视频帧中的投影来验证其位置。
左:带标注的 3D 界限框所形成的投影展示在界限框顶部,更易于验证标注;右:通过检测到的目的外面以及希罕点云数据,可以为差别的相机姿态标注真实天下中的 3D 界限框。
AR 合成数据
之前常用的方式会凭据合成数据弥补真实数据,以提高展望的准确性。然而这样的做法通常会导致质量低下、不真实的数据,且若是要执行图像的真实感渲染,又需要更多的盘算力。
研究者采用了另一种称之为 AR 合成数据(AR Synthetic Data Generation)的方式,只要将工具放到 AR 系统的事情场景中,我们就能行使相机姿态估量、水平面检测、光照估量天生物理上可能存在的位置及场景。这种方式能天生高质量合成数据,并无缝匹配现实靠山。通过连系真实数据与 AR 合成数据,研究者能将模子的准确性提高约 10%。
AR 合成数据的天生示例,在蓝色书籍旁边,虚拟的白色盒子可以渲染到真实场景中。
3D 目的检测的流程是什么样的
对于 3D 目的检测,研究者先构建了一个单阶段模子 MobilePose,以展望单张 RGB 图像中某个目的的姿态和物理巨细。该模子的主干是一个编码器-解码器架构,其构建在 MobileNet V2 的基础上。研究者应用了多任务学习方式,来从检测与回归的角度团结展望目的的形状,且在展望形状的历程中,其只依赖于标注的支解图像。
MobilePose-Shape 网络在中心层会带有形状展望模块。
在模子的训练中,若是数据没有标注形状,那也是可行的。只不过借助检测界限框,研究者可以展望形状中央与漫衍。
为了获得界限框的最终 3D 坐标,研究者行使了一种完善的姿态估量算法(EPnP),它可以恢复工具的 3D 界限框,而无需知道工具维度这一先验知识。给定 3D 界限框,我们可以轻松盘算工具的姿态和巨细。
下图显示了网络架构和后处置历程,该模子轻盈到可以在移动装备上实时运行(在 Adreno 650 mobile GPU 上以 26 FPS 的速率运行)。
3D 目的检测的神经网络架构与后处置历程。
模子的示例效果,其中左图为估量界限框的原始 2D 图像,中心为带高斯漫衍的目的检测,最右边为展望的支解 Mask。
在 MediaPipe 中举行检测和追踪
当模子对移动装备获得的每一帧图像举行盘算的时刻,它可能会遇到晃动的情形,这是由于每一帧对目的界限框展望自己的模糊性造成的。为了缓解这个问题,研究者采用了检测 追踪的框架,这一框架近期被用于 2D 检测和追踪中。这个框架削减了需要在每一帧上运行网络的要求,因此可以让模子的检测更为正确,同时保证在移动端上的实时性。它同时还能保持识别帧与帧之间的目的,确保展望的连贯性,削减晃动。
为了进一步提升这一 pipeline 的效率,研究者设置模子在每几帧后再举行一次模子推理。之后,他们使用名为快速动作追踪(instant motion tracking)和 Motion Stills 手艺举行展望和追踪。当模子提出一个新的展望时,他们会凭据重叠区域对检测效果举行合并。
为了激励研究者和开发者基于这一 pipeline 举行试验,谷歌现在已经将研究成果开源到了 MediaPipe 项目中,包罗端到端的移动装备应用 demo,以及在鞋、椅子两个分类中训练好的模子。研究者希望这一解决方案能够更好地辅助到社区,并发生新的方式、应用和研究成果。团队也希望能够扩大模子到更多种别中,进一步提升在移动端装备的性能显示。
室内和户外 3D 目的检测示例。
本文为机械之心编译,转载请联系本民众号获得授权。
------------------------------------------------