增强现实的技术框架,单目摄象头存在的问题、双目摄象头能解决什么问题,深度摄象头在增强现实中的一些具体应用,增强现实在未来发展方向。
首先,今天非常高兴能有机会来到极客公园这边跟大家在增强现实技术方面的一些具体应用,这是我今天给大家分享的题目,就是「深度摄象头在增强现实当中的应用」。
我在整个过程当中基本上整个研究方向集中在增强现实、图象处理、三维重构这个方面,实际上在计算机视觉当中相对来说偏重于视觉几何的一个方向。
这是我跟大家今天介绍的一些基础的内容,开始我会介绍一下增强现实在整个技术的框架,包括里面的一些难点,对我们技术提出的一些要求。
在后面的一些部分当中,我们会给大家介绍一下单目摄象头当中存在的一些问题,有了这些问题之后,我们再来看一下双目摄象头到底能解决这里面的一些什么样的问题。在后续,我会给大家分享一下我们深度摄象头在增强现实中的一些具体应用,我们会有一个关于增强现实在未来发展方向的一个简要的介绍。
首先我跟大家分享一下我们增强现实技术当中的一些具体问题。我们可以看到前几天发布的 iPhone10,在这之前,大概 5、6 月份的时候,发布了 SDK ARKit,这个巨头的整个入场是把 AR 推到了一个新的高潮。
其实在前期增强现实技术有很多公司在做,包括学校里面的研究所,这些科研机构,其实做的更早,在 90 年代初期,国内都在做这个东西,但一直没有火,一直到了 2012 年左右,这件事才有一些公司逐渐涉足到这里面来。
但是,在这个过程当中,发现光靠创业公司一直推动这件事情,实际上推动力别不是那么大,后来像苹果、Google 出了这些产品之后,会迅速引起大众的注意,对这个东西的关注,同时也教育了广大用户,让大家对这方面有一个基础的认识和概念。
所以,对我们这些创业公司来说,实际上是一件非常好的事情,正好若我们能借着这股浪潮把我们的技术在落地的场景下能再做一些更加深入的工作。
我们通过张图可以看到整个技术的一个整体的变化,最开始的时候,大家可能从命令行、敲键盘再来进行各种输入,再后来就出现了整个的操作系统、操作界面,Windows 平台还包括苹果系统。
现在大家都是用着智能手机,通过智能手机的大屏,我来跟数字世界之间进行交互,在未来一段时间之内,就应该是智能眼镜的一个时代,我们会用这个智能眼镜来进行交互,在整个过程当中,大家可以看到,每一次这种技术的变革,他都会引起咱们整个交互方式的改变。
交互方式会改变,它也会引起内容的改变,硬件、软件在各个方面都会改变,在整个技术上,它是一个链条上的东西,所以我们每一个产品,最终想给用户使用的话,一定是这个链条上的每一个环节它达到一种平衡,达到这种平衡之后,这种东西才能给用户真正来使用。
我们假如只追求技术上,达到多领先、多先进,这个实际上并不一定能给用户提供实在的一些帮助,这个在真正的产品落地过程当中,我们体会比较多的一个地方。
我们来看一下整个增强现实,其实增强现实是一个非常大的应用学科,就这一个学科实际上在咱们的科研院所里面,很多的学生是不愿意去做这个方向的,原因是什么?这个方向很难毕业。因为,增强现实里面涉及的领域都非常广,但每一个领域它需要涉及到方方面面,像交互这个方面,然后图形进行渲染,然后计算机视觉,还包括机器学习,这些领域它都要涉及到。
最终,它更多的会是一种工程化上的一些技术,就每一个这个领域真正钻下去,他都需要很长的时间,但是你真正想做一个增强现实的系统,你就不可能对各个方向钻的特别深,所以这个方向在很多的科研院所整个博士、硕士是不大愿意做。
这个是增强现实整体的一个结构,这张图从易观分析当中借来的,我们可以看一下,增强现实的整个结构它分三大部分:
1、输入。
2、虚实结合。
3、输出。
输入这一部分它包括我们的这些各种各样的传感器,手机摄像头里面是一个,还有其它的一些传感器。这都属于输入设备。目前,随着大家对这个增强现实的系统要求越来越高,输入这方面的这些技术,也在不断的改进当中。
另外一大块我们虚实融合的大模块,这个里面就涉及到几个部分:
1、我们要做一些既定的交互,这个交互是指跟三维场景之间,我们要理解到这个三维场景当中的一些信息,知道它的一些结构信息。
2、然后就是整体我们要知道我们整个三维场景当中的一些语义的信息。
其实这个两个方面,在虚实融合当中,是非常关注的一个点。
另外一大块就是我们的渲染引擎,就是计算机图形学这方面的一些技术,这个方面我们要做真实感觉的绘制,要去计算这个光线,要把我们虚拟的光线跟真实的光线做对齐,这是这里面一些真正的难点。
只不过这里面设计端的技术是方方面面,有一些技术是现在最重要的,有一些技术可能是未来更重要的的,像刚才我们提到的像虚拟光线这种跟真实光线的这种配置,实际上是非常难做的,就目前大家还没有说在这个方面做得非常好。
在学术上,大家在这个方面可能会做一些尝试、验证。但是,真正你到了实际的场景当中,我们想到虚拟物体跟真正的光线配合起来,需要我们在场景理解这方面要下非常大的功夫。要基于这个单目、双目的图象,甚至根据传感的信息来综合分析真实当中的光照、阴影之间的关系,这个里面的问题还是比较复杂的。
在另外一大块就是我们所说的输出,目前来讲我们主要是有几种方式:
第一种方式:现在用的显示屏。
第二种方式:智能眼镜。
现在有很多家,包括国内国外的都在做这个智能眼镜。
第三方式:未来大家所说的真三维显示,大家可能不戴任何设备就可以在空间当中看到一些东西,这种场景目前来讲还是为时过早的,所以还停留在一种概念阶段,目前真三维显示实际上能做到的范围并不是特别大,它也需要一些介质,并不是不需要介质。
因为,现在有一些公司可能也是为了 PR 的一些需要(国外的公司)可能会给大家造成一个错觉,说我这种真三维显示东西你直接裸眼什么东西都能够看到,但从本质上来讲,我们人眼能看到的东西是因为有光线打到眼睛里面来了。
所以,我们才能看到东西,但你这个光线要打的话需要有介质,没有介质的话,这个光线是不可能进到你眼睛里面来的。从这个结构上来讲,它多多少少会有一定的硬件设备,有了这样的设备你才能做到这样的事情。
我们来看一下增强现实的整个关键技术,这一块我简要总结了一下,这种分类其实有不同的分类方法,这时从我的角度简单做的一个划分。
第一部分:整体的显示。主要目的是要给用户带来一个良好的感官体验,这里面有几个重要的部分。
1. 整体系统标定,因此现在用到的硬件设备传感器非常多,传感器直接直观一些,这些东西需要做一个精确的标定,这个标定不好,我们看的这个东西会对不齐。
2. 跟踪定位。我们会对整个场景做跟踪,实际上这方面的技术需求是最大的。
3. 后续的一些几个技术点,像图形绘制这一块就是渲染方面这些要求。这一部分目前我个人觉得还没有重要到这种程度,图形绘制这一块在虚拟现实当中非常重要,会对精细度提出非常高的要求,但在增强现实当中,目前来看,这一点还不是一个技术的重点,在未来,等我们前面的技术都解决了,图形绘制可能变成一个非常重要的方向,现在整个硬件的计算速度也赶不上,所以这个还没提到日程上来。
后续在显示上更重要的是两个点:
1、硬件集成。
2、光学设计。
这两部分,实际上现在大家已经在着手去解决这方面的问题了。
第二部分:交互技术,这一块主要是为了给用户带来一个非常良好的交互体验,这里面有各种各样的输入。
我们把这块叫做多模态的输入,像手势交互、语音交互、触摸这些技术的输入方式,目前在这个输入方式当中语音和手势是比较自然的两种方式。
从现在来讲,语音目前是用的比较多的,手势现在也有很多公司在做,都做到了一定程度,基本上在一个小范围之内做手势,问题不大,识别几种手势这个问题都不大。但是,目前达到流畅、自然目前还是稍微有一定的差距,做一些基本手势不会有什么太大的问题。
第三部分:场景理解。
这一块实际上对于我们人来说,它跟上面这些硬件是结合起来的,实际上对我们来说更多是扩展这个人本身的感知能力,对我们这个场景分了两大部分:
1、对整个场景的几何结构的理解,我知道这个地面、桌面在哪儿,知道我跟目标之间的相对位置关系。
2、场景的语义理解,我要知道这是一个桌子、椅子、人,我要知道这些事情。
这些东西是综合分析起作用,提供给做增强现实这个系统做各种各样的决策和判断。
我们看一下增强现实现在的一个要求。
桌边这一侧是一些初级的要求,在 2000 年大概有 10 几年的发展时间之内,大家刚开始就是做桌面范围内的东西,现在大家可以看到很多增强现实的应用逐渐拓展到了我们这个级别,像室外的游戏,去年比较火的是 ProjectTango、支付宝红包中的抢红包各种各样的应用,这都是初级的一些室外的大场景增强现实应用。
目前已经有这样一个趋势,增强现实可能无处不在,我们通过设想或者其它传感器,我们都能收集世界当中的各种各样的信息,对这些信息产生一定的反馈,然后做一定的决策。
所以,这是这样一个趋势。
另外一块就是我们在这个尺度上的,先前我们去做增强现实的时候,实际上大家在意的是你屏幕上显示的一些什么样的东西,实际上本质上还是一个单维的,我只需要看这个二维的平面上这种投影,这个里面没有那种精确的三维,只要是投影的那个点对了,我们就认为这个目标增强到那个上面去了。
这一个尺度,更多的是一个相对尺度,他们有绝对的这种关系,我们不知道,它可能会告诉我距离这个凳子之间是两个单位,但我不知道这两个单位是两厘米还是两米,甚至是两公里的,我不知道这个信息。
以前做的那些东西,只要是基于单目的,实际上都很难直接解决这个问题,除非你对这个场景有一个预先的已知,预先知道它的一些结构。
现在我们应该要对这个场景做更多的交互,所以现在大家更多的是要在绝对尺度上做增强现实的事情,比如说像 ARKit,实际上它现在在做场景的测量,里面得到了很多坐标信息都有一种绝对的尺度关系,当然不是靠单设想去做的这些事情,单摄象头是做不到这件事情的。
在下面的一个要求中,就是实时遮挡这件事情,先前我们去做增强现实的时候,大家可以看到虚拟的目标做到增强现实的应用,包括我们现在看到的绝大多数增强现实的应用,虚拟的目标一定是在实际的目标前面的。
包括它之间并没有跟真实物体产生真正的遮挡关系,虚拟目标很难绕到真实的物体后面去,但现在数增强现实的应用我们都可以看到这一点,要么就是在手上站着,但你的手上不会跑到目标前面来,绝大多数都是这样的。现在大家已经在着手解决遮挡的问题,这里面实际上需要我们有更多的三维信息。
在交互方式上,我们先前都是在屏幕上去做这件事情(二维的屏幕交互),现在我们更多的是有些手势、语音的输入,所以这个里面可能就会借助到我们的一些深度信息去做这个事情。
在定位这个方面,最初我们是做那种很基础的定位,我们知道像最初的时候,比如说 AR 可以整理一些标记点,我们知道几个焦点的位置,我们可以去列如简单的算法去算出我们当天摄像机的一个相对位置,我们把他放到桌子上就行了。
现在我们去做这种定位的时候,我们更多的是想知道我们这个场景的整体结构,我们去做游戏交互的,像 Google 去做 Project Tango,他们去做那个事情的时候,我们可以把这个目标放在桌子上,让这个小动物在桌子上跑来跑去,从桌子上跳到地面上,甚至也可以钻到沙发下面去。
这个里面更多的就是基于对我们整个场景的理解,在做的一些这样的应用。
然后,在显示方面我们以前都是在做屏幕上的显示,我们后边这些方向基本上大家都在做这种近眼显示,要把那个屏幕拉到我们的眼睛前面来,它的好处就是你不用低头了,你的双手可以解放了,你看到这个场更宽了,你看到的目标范围更大了。
所以,这个就是指的智能眼镜这一块了。
在我们整个平台上,就目前增强现实整个是有一个平台化的趋势,先前大家做得东西都是基于单机的,就是一个小的游戏、一些应用。现在我们更多的是要跟整个平台系统要结合起来,这里面整个就跟咱们那个大数据分析、物联网这些东西全部都结合到一起了。
前端的增强现在这一部分,它就是承载了有前端的数据采集、智能感知这一部分,显示这一部分,更多的数据分析都需要我们后台去做这个事情了,这是另外一个未来发展的一个趋势。
我们可以看到,我们平台化的增强现实大概是一个什么样的一个结构,我们整体上会有一个云端的处理平台,这个处理平台会有数据库还有包括基础的算法库,还包括我们支持的一些数据分析和一些运维的一些服务。
在中间的部分,我们会有几大模块构成:
1、用户交互。
2、环境感知。
3、虚实融合。
4、通讯。
这几个大的模块构成,在这个基础上,我们在前端,实际上是有这个智能终端,这里面包括手机,包括增强现实智能眼镜,来进行整体的数据采集,还有包括跟现实环境一种自然的交互,是来做这些方面的这些工作。
另外,在这个过程当中我们会产生很多、很多的数据,这个数据跟我们以往的这些数据就不太一样,我们以往的数据就是文字、语音这些基础的数据,可能大家都通过键盘、鼠标去输上去,一些图像拍完了以后我们会传到网上,都这样来输入的。
在我们这个增强现实的这个模式下,我们去做的时候,比如说我们戴上增强现实的眼镜我们可以以第一视角去采集这个数据,因为我们现在用了很多的这种深度感知的这种设备,它可以把这个场景一些三维的数据,也会传到我们这个后台上去,它这个数据就跟我们以往的这些数据就不是太一样。
这些新的数据,它会产生一些新的数据处理和方法,还包括它会产生新的数据上的一些价值,所以这部分数据,在未来的分析当中可能也会占到一个比较大的一个比重。
我们下面就是说,我们着重去看一下我们增强现实这里面着重解决比较重要的两点,一个是对我们整个场景的几何结构和一个理解,这个几何结构在这里面主要是包括点、线、面、距离这些基本的一些关系,这个东西是纯几何意义上的。
另外一块就是语义上的,就包括整个物体的类别,它的基本属性,还包括他们的运动模式,运动模式这些东西实际上都是我们场景感知当中,重点要做一些事情,我们在场景的几何这方面的一个理解,实际上主要是基于视觉几何这些基础理论知识去做的。
我们的两条线可以定位空间的一个点,像我们可以据做这个场景当中点跟点之间的一个匹配,同样点跟点之间的匹配我们可以去做三维重构,然后在这个基础上,我们可以去做时时的跟踪我们这些技术,右下角这个公司就是我们视觉几何最重要的一个公司。
就把这个公司理解透了,可能视觉几何里面很多问题就比较容易理解了,这个公司虽然简单,但是实际上在我们这个过程当中,有的就是学了大概两三年视觉几何知识的时候,这个公司其是说不清楚,这个就是要是能把它理解好了,我们整个跟三维相关的一些内容,可能理解就会比较再透彻一些。
另外一大块就是我们场景语义这一块,目前主流的就是我们去对场景当中的各自语义去进行分析,主流的方法就是这种深度学习的整套框架了,在整套框架做这个事情,包括我们整个场景的分割,包括人的行为能力检测、手指头识别这一系列的一些东西。
在下面我跟大家就介绍,我们在上面介绍到了智能前线这些关键的技术,其实这些技术它里面有一些未解决的一些难点,这些难点,有一些是因为我们这种单目摄像头,它就是自身有一些局限性,它不能解决,所以我们下面就来看一下单目摄像头,以及里面的一些技术的问题。
其实在单目摄像头当中,其实我们可以看到,ARKit 跟 ARCore 它们已经做到了一个非常好的程度,当然有的时候他们不是说只用到摄像头了。
左边就是 ARKit 它那个实际运行结果,大概有 10 几个例子,它来做整个空间的跟踪定位也包括,时时的一些测量,右边是 ARCore 做的一些展示效果,在这两个技术里面,他们会综合使用了视觉跟 IMU 的这些信息,来做一个综合的定位。
像 ARKit 这一块,它会有一个场景的绝对尺度,这个绝对尺度是用 IMU 整个来做估计的,来做这样的一个预估,所以现在有很网上有很多的例子,在 ARKit 在做整体物品长度的一些测量,但这个方面他们是跟单摄像头没有直接的关系,在总体的性能上,ARKit、ARCore 目前没有看出有本质上的一些区别,他们两个效果都是跑得比较高,目前我们看,就没有看到一些实质性的效果上的差别。
只不过就是在安卓的手机上,他那个适配这一块非常难做,它需要对它的传感器的一些信息做单独的一些标定,所以 Google 他们也是正在计划去做一些这方面的工具,来指导各个手机从厂商对它的硬件来进行标定,对他们的传感技术来进行制定,来达到一个精确跟踪定位的一个目的。
在苹果这一边,它就基本上不会太存在这样的问题,因为苹果它是一个软硬件结合的一个公司,硬件是他们自己的,软件也是他们自己的,所以他们内部去做这种深度化的优化,实际上对他们来是有利的,而 Google 碰到的困境就是说,所有的厂商都是外面的,它必须作出这样的工具来,厂商配不配合也是另外一回事,所以软硬结合其是有非常大的好处的。
我们再看一看基于单目去估计深度的案例,这篇论文是 Google 他们那边的工作,是 2014 年做的。
他做了一个什么样的工作呢?我们的用户在拍照的过程当中,他们的手机真正拿起来的时候,手机会做一个轻微的抖动的,你不由自主的会做一些轻微的抖动,然后他就利用这些抖动的信息,就利用这些一系列的图像,其实这个图像的数量并不是太多,因为这个图像它能完全做一个局部的三维重构,可以重建出一些三维点来,他利用这些三维点构建一个吸出的点云。
吸出点云之后,他就做了一些匹配,可以生成一个基础的深度图,很小范围的一个深度图,他就能去对这个相机进行变焦了,对这个图像进行变焦,这里面它有一个非常大的贡献,它证明了一件事情,就是在一个很小的范围之内,在这个预知的区间之内,它目标函数将是一个凸函数。
它是可以比较容易求解的,所以它刚开始去做这个初始化的时候他非常容易,因为他的每一帧,帧跟帧之间的相对距离比较近,这里面只需要做成一个随机就可以了,因为他是一个凸函数你刚开始的那个值,你准不准其实并不是特别重要,它可以迅速的求解到局部地方。
但是,它那个就是限定范围,就是你必是在一个小的空间里面,一个抖动帧跟帧之间的距离不能过大,过大的话,这个东西就算不上,它就不是凸函数了,它就没办法计算。
这个是它的一个这种单目方面的一个工作。
我们可以看到先前试图用单目来解决增强现实当中的一些初始化定位、场景估计的问题,我们增强现实当中目前的一些技术的重点,这些点是目前大家着手解决的一个问题。
第一个问题:场景初始化。
在我们整个增强现实的技术过程当中,我们第一点就是要做好初始化。我们刚开始第一帧怎么来定位,目标要放到哪个位置上,像用以前的 ARKit 的标志点去做这件事情,我们找到 4 个脚点,把坐标系定到 ARKit 的正中心、左上角,我们可以把目标放在那,但它是一个人工设计的。
后来我们会用资产图象预先去做训练,去提取它的特征点,把它的上下位置记到数据库里面去,当我在识别的时候,匹配完了之后……实际上我们那个坐标系最终还是定到了图象上面。
这两类方法实际上都是人工去做的一些工作。
在真正的现实场景当中,刚开始想自动化地去做定位,自动化去预估这个场景当中的平面,我们通过平面检测这个方法找到水平的平面,可以把这个坐标系定位到它上面,但它里面存在的问题是我可能能定一个轴,另外两个轴的朝向就是随机的。
所以,这方面我们还需要其它的信息去做,这是场景初始化。
第二个问题:多个平面的估计。
这一块我们刚才也提到了,对于我们做增强现实的一些交互实际上是一个非常重要的方面,目前我们是做多平面方向,未来我们会做几何形状,可能不是非平面的目标我们也都可以做。
再往下就是我们场景整体的这些三维结构,我们做跟平面相对的,我们会拿到通用场景下的三维结构,有了上面的基础信息之后,我们可以做虚实遮挡的,这样那个场景的真实感会更强。
在这个基础上,我们还可以去做一些场景的理解,这些东西也是对增强现实的系统做一个有意义的补充,我们知道场景当中的人在哪儿,先做一个初始的分割,知道这个人,或者是知道哪个地方是桌子、书本,知道这个信息之后,有助于我们可以做一些针对性的交互内容,可以把一些目标放上去。
我们看一下单目摄像机当中的一些技术问题。
基于以上这些问题,实际上后面更重要的一个问题是不能解决这种实时的遮挡问题,除非我们能对这个场景先进行一遍扫描,我们要把它的整个结构全部记录到数据库里面去,当单目来的时候,我们会跟数据库里面的这些图象跟几何信息再做一个比对,做完这种比对之后,我们有可能从这种角度来解决虚实遮挡问题。
但是,这里面带来的问题就在于这个场景扫描是一个非实时过程,会有一个光照的变化,光照纹理的变化,当这些数据有变化的时候,你这个场景还得重新再扫描一遍,会有这样一个问题。
我们上面谈到了单目摄象头的一些问题,我们看一下双摄象头的东西给我们带来的一些改变,实际上整体上是因为在我们整个的发展过程当中,实际上我们的需求在驱动整个技术变革,而这个技术变革反过去去推动这个需求。
所以,在我们产品化的过程当中,整个的技术发展跟市场需求有一定的同步性,跟我们做学术研究不一样,学术研究可能更多会强调这种新意,但真正在做产品化的过程当中,我们更强调的是这个技术跟市场要同步。
比如说,现在像苹果实际上有比 ARKit 这些技术更好的技术,但它并没有推出来,因为现在它需要卖它的这个手机,再一个,它那个技术出来了,但我们的一些内容没有赶上,我们后台的这些平台没有赶上,它推出来还不能给用户产生真正的价值。
所以,这个时候它只是技术领先,但这个技术对用户来说别没有实际作用,每一个技术在发展过程当中一定要跟这个市场需求结合起来。
我们可以看一下需求到底大概怎样的变化,我们看一下手机摄象头,其实这个手机刚出来的时候,大家有摄象头,刚开始就是 10 万像素的,到后续到了最高可以到 4000 多万像素,可能刚才我们提到的诺基亚,诺基亚有一款手机达到了 4000 多万像素。
但是,这么高的一个像素,其实对用户已经没有太多的实际价值了,我们手机一共就那么大,你做到这么高分辨率的像素,但对于我们这个屏幕来讲,我已经看的足够清晰了,比如 1000 多万,2000 多万像素。你做到 4000 万其实对我们用户没有太多的实际价值。
再一个,这些数据假如真的拿去做算法处理的话,这个处理的工作量非常非常大,不可能去处理这样的图象,所以从市场需求上来讲,4000 万像素在我们目前这种手机上并没有太多的实际意义。
另外,实际上大家更追求的是手机的轻薄,我要这个手机轻,外观漂亮一些,画质能达到一些基本的需求,更多的需求是拍照的一些基础要求,不是说我单纯的拍个照,前后景深是一样的。我在暗环境下拍照直接把那个很暗的光线采集进来了,实际大家更多的是我希望用你这个摄象头能拍出单反相机的一些基础效果,在暗的环境下能把暗光环境调亮,这些需求比你 4000 万的需求更强烈,它要摆到更优先的位置。
在后面,现在我们后台的大数据、人工智能技术的发展,产生了各种各样的有用信息,这些信息实际上带来了用户对整个场景内容识别的需求,实际上是想了解这种,比如说我们扫码、海报,扫其它的东西,带来了一个这样的需求。
正是基于以上这些需求,我们需要对我们现在的硬件设备做一些基础的改变。
我们可以看到双目能做的事情,单目只能看到一个面,从一个角度看到 A、B 这个面,而双目能看到 A、B 面,也能看到 B、C 面,也能看到上面,也能看到下面。
在材质纹理上,我们也能看到多种材质纹理,双目能获取更多的信息,而且这个信息是一个有用的信息,并不是没用的信息。所以,双目能拿到更多的信息,我们就能给他做更多的信息处理、分析。
这是深度摄象头的一些基础方案,相信大家都比较熟悉了。
左侧是双目立体视觉,就是两个 RGB 摄象头你就可以做这个事情,中间是结构光,我们做各种结构光的编码,右侧就是那个 TOF 的方案,这几种方案个有优缺点,实际上在现在的整体应用当中,各个手机厂商也好,包括这些硬件设备也好,实际上这几种方案都轮换在使用,没有哪一种方案是直接固定的。
像苹果出那个手机,上一款还是 TOF 方案,这一款就变成了结构光了,像 Kinect 也是出了一个 TOF 方案和结构光方案,像 Project Tango 也是这样的,实际上这些方案并没有一个方案是完美的,要么可能成本比较高,要么距离探测比较近。
像苹果刚出的 iPhone10 前面的摄象头采用了一个结构光的方案,因为结构光这个方案能做近距离,TOF 那个方案做近距离有问题。所以,它选用什么样的技术方案是根据应用场景而来的。
目前我知道国内也有一些公司在做这些方案的组合方案,它可以在一个硬件设备里面集成,然后根据场景切换,把那个数据融合起来,但带来了成本的问题,成本过高、体积过大,结构设计比较麻烦,都带来了一系列的问题。
所以,你解决一个问题可能会发现有更多的问题在等着你呢。我们看双目摄象头的一些基础的功能,简单罗列了一下,其实跟先前有一些重叠,我们可以看一下它的一些优势。
它在区分前景与后景上,就是刚才举的 Google 的例子,单摄象头必须要去做三维位置的计算,深度估计,用多单摄像机去做这件事情,但有了深度摄象头之后,它只需要拍一次数据就能把深度信息估出来,能把这个背景分割的比较好。
所以,单目可能用复杂的算法,但双目当中就不用很复杂的算法了,整个计算量都要下来了,但双目也有它的问题,其中的一个问题就是整个系统的成本变高,整个硬件结构去做设计的时候,会增加一些麻烦。
另外它有一个局限性,目前我们镜头之间的间距还是比较小的,其实你看 Project Tango,它们那个间距都比较大,间距小的可能就是近距离,当你距离过远的时候,你的误差就会比较差,甚至你根本检测不到。
因为我讲手机摄象头单目发展的时间会更长一些,所以基于单目的很多算法已经陈述了,而且双目这一块,因为这个硬件设备还没有发展到那种程度,所以双目这一块大家更多的是在大型的双目设备上面做,在手机上做的还比较少一些。
所以,未来这个发展可能大家会在手机的双目摄象头上发力,去做一些专门针对性的算法。
在后续,我们跟大家简要就最后一个部分,给大家介绍一下我们增强现实的一个整体发展的一个前景,一个趋势:
趋势一,硬件的升级。
我们前面谈了很多的需求,这些需求就带带来对我们硬件提出了一个的要求,说未来我们这个手机上一定多种传感器,多种传感器相结合,它不是说是我们双目摄像头,还有其它的创新,像苹果目前发布了一个手机摄像头里面传感器就非常多,各种各样的传感器,不止是深度这一块。
而且未来深度摄像头我自己感觉,他会把他们之间的数据加大,转成之间的距离要把它加大,至于怎么布置,可能得由设计师去做这个事情的,就是现在它间距还是太小,然后在另外一块,我们这个传感器的发展,实际上一定会带来智能眼镜的一些发展,智能眼睛目前还是更多的集中在 B 端,在 C 端的应用还很少,咱们手机都是 C 端的一些用户。
但智能眼镜目前有了这些基础的技术跟算法之后,实际上我们最先是可以在一些实际的 B 端应用场景当中去实现落地的,目前像我们公司目前就已经在做一些非常实际落地项目,这种智能眼镜在一些实际应用场景,前面就直接用的深度摄像头,去来做空间的一些物品的一些测量,深度的感知,目前是在桌面范围内去做这件事情。
然后,在未来的话,随着在 C 端的一些需求,更加的细化,包括一些这方面的技术的改进,我们可以逐渐得把它移植到在智能眼镜算法的体系当中去,使它具备更多的一些功能。
另外的一个方向就是内容方面,就是我们的硬件出来了,我们这些技术达到一定的成功,我们一定是要把内容做进去的,这个内容就涉及到各个行业,每个行业是有差异性的。
所以,这一块主要是需要大家的一个共同努力,没有内容的话我们硬件做出来也没有用,包括我们的技术做出来有是没有用的,未来就目前来看,今年已经差不多过去了,今天到明年的上半年,其实是会一个内容爆发的时间点就这段时间,大家会密集的。
其实是从我们接触到一些市场需求来看,很多做内容的、做策划、做创意的,这些公司开始进入这个领域,而且现在正在做各种各样的创业,大家就会在互相的交流过程多种,一方面是针对 AR,来做这种创意,一方面是针对这些创意我们来提升技术,就大家在这种迭代的过程当中,会逐渐的把这个产业带到一个的繁荣程度,目前这半年这一块是一主要的方面,基于现有的技术,我们会把这个内容端来补上去。
在技术方面大家会越来越重视稠密重建这一块,我们更多的会拿到这个场景的重建的结构。
还有一个就是更大的发展方向,这篇论文是 2017 年的论文,就他这个方向,前期我一直是在做视觉几何这那一块,做几何就是场景结构,中间也是接触了一些机器学习的东西,以前我们老师也讲说语义这一块是他不能解决的几何问题的,大家在这一块有一些争议,但是我也是最近看了一些这个方面的一些文献,就发现已经有很多人在做这个方面的尝试了,而且有一些很不错的工作。
不止是深度学习,深度学习只是机器学习当中的一个点,然后还有其他他这些学习方法,还有其它的学习方法,把这些方式用在场景几何结构的计算当中,我们想到未来也许我们会有一个完全端到端整体的解决方案,我们把语义跟几何理解统一到一个统一的框架当中去,它们不再是一个分离的结构了。
另外一个就是我们 AR 的平台化,有了前端的这些基础设备之后,不管是 AR,还是其他做人脸,做整个场景图象识别的公司,大家基本上走了一个云、端的结构。在后端的结构上,大家可能都会提供一些基础的编辑界面,可能会供运营人员使用,大家不需要掌握什么技术,你就可以用这个东西去做基础的编辑。
它一定要支持多个其它的 APP 接入,也许是 APP,也许是其它系统,它能接到这个平台里面去。
在这个基础上我们要做一个整体的算法平台,这个算法平台里面会有我们处理的一些算法,我们还需要有一些内容管理、分发、存储方面的工作。
整体上是这样的结构,但从另外一个角度来讲,你真正去做这样的大平台,并不是说你想做就能做的,这样的平台可能谁都想做,一统天下,但这件事情行业跟行业的差异化特别大。我们自己技术提供方来讲,我们可能更多的会把我们这些功能接入已有的这些平台,基本上是这种云端的结构。
我们在前端这个数据处理上可以看到 AR 实际上会产生很多数据形式,就是靠我们现在这些终端来获取,我们也会在后台用新的数据处理方法、分析方法来分析出新的信息,基本上会有一个整体的结构。
这是几个未来 AR 发展的趋势,我们的同事都在努力想把 AR 这部分技术推广到广大的用户当中去,让这些真正的 B 端,或者是 C 端的用户从当中真正获益,这可能是我们整个公司的一个目标。