上篇文章讨论了“人工的机器视觉”和“机器的机器视觉”,本文重点讨论如何才是“机器的机器视觉”,“机器的机器视觉”与传统的“人工的机器视觉”相比具有哪些特征和特点,以及“机器的机器视觉”研究的最终目标和实现路径等话题。
(一) “机器的机器视觉”的目标
现在让最有想象力的科学家来谈谈“机器眼”,估计也不会超出人类眼睛的范畴。让机器人拥有一双智慧生物一样的眼睛,是从事机器视觉技术的科研人员梦寐以求的目标。如果说拿人眼的功能作为“机器眼”的远大目标,估计没有人会提出反对意见,而且,拿人眼来做比较和类比,更容易解释和理解。
让我们从机器视觉的角度来讨论一下人眼的非凡功能,并且用这样的功能来要求一下“机器眼”。我们可以设想一下,能否也让机器人有一双智慧生物一样的眼睛?我们目前的机器视觉技术与这样的功能要求还有多大的差距?如果有一些可能的话,未来我们如何向这样的目标努力?
用机器视觉的指标来对人眼的功能进行类比的话,从“感”的角度来说,人眼的视觉细胞为1亿多个,可以随时自动根据被视物体的距离自动调整焦距,根据亮度自动调整瞳孔(光圈),人眼的色彩感知相当于目前的彩色相机,视觉反应范围水平约120°,垂直约115°,还可以方便的360°旋转。从动态响应的指标来说,人眼可感知的变化大约为24次/秒。采用双眼成像在大脑合成彩色三维立体图像……
在机器视觉“感”的方面,在单项指标上基本能够达到人眼的水平,而且在某些方面的性能完全超过人眼,例如:显微镜对于微观物体的观察、望远镜对于宏观世界的观察、超声波和红外成像、高速摄影、精确测量、大容量长时间的视觉记忆,等等……以上这些领域内,机器视觉的某种表现已经远远超出人眼的视觉能力。
虽然机器视觉在“感”的方面,单项指标可能超过人眼,但在综合能力上存在巨大的差距。这些差距突出表现在三维高速被动视觉感知的功能上面,同时,人眼所具有的高速、高分辨率、高动态、高适应性、全自动、全自主、低功耗、精巧的结构等等,在这些方面,机器视觉难以企及。
从“知”的角度来说,人类的双眼与大脑通过视神经紧密相连,在看到物体的同时,通过大脑的解算,可高速、低功耗地得到物体和外部场景的彩色三维高分辨率图像,能够对视场内的物体自动进行空间分离,得到物体位置、尺寸、纹理、色彩和运动状态的详细特征和属性,能够根据物体视觉特征快速获取被视物体的名称、类别和分类等等属性信息。这样的“知道”的能力,对于机器视觉来说望尘莫及。目前机器视觉在“知”的能力上,只有在特定场景下对特定物体通过专业编程才能够具有一些初级的“知”的能力。
综合分析,现有的机器视觉与人眼的最大的差距表现在以下三个方面,它也是未来“机器的机器视觉”的努力方向和奋斗的目标,是真正“机器眼”的最终定义:
1、被动式、实时、高精度、低功耗的三维图像生成能力;
2、被视物体和场景的空间及运动的快速感知和识别能力;
3、所见即所得的自动视觉学习、归纳、总结的能力。
以上三个差距暨三条奋斗目标,借用微软亚洲研究院童欣研究员关于机器视觉的目标论述,总结为:“everyone”、“everywhere”和“everytime”的三维成像。
“everyone”就是“机器眼”完全的自动化、模块化和标准化。无需复杂的图像处理编程和专业系统设计,像通用传感器一样,其输出可直接用于三维图像显示以及后续的智能分析和判断,无需专业图像工程人员的参与。“everyone”意味着这样的机器视觉手段任何人都可以使用,可直接应用在各类无人汽车、无人机、智能机器人等智能设备上。
“everywhere”就是说“机器眼”应该像生物的眼睛一样,采用被动式光学成像原理,无需借助外界辅助光源和其他辅助手段,无需人工干预包括调整光圈、调整焦距、手工对焦,无需借助于辅助照明、激光、红外光、结构光、预处理和标定等辅助手段,能够自动适应复杂场景和环境变化,能够在任意环境和条件下,自动地完成成像和视觉感知。
“everytime”的意思是随时随地都可以完成的成像和视觉感知。强调的是及时和实时性以及简单可靠,计算时间需要满足使用中的要求,不能有太多的延时和拖延,计算设备不能过于庞大,可便携,便于连接和随时随地能够投入运行。
所以,对于什么是“机器的机器视觉”这样一个问题,我们可以给出一个总结性的答案,“机器的机器视觉”就是要像智慧生物的眼睛所具有的视觉功能一样,不论在任何环境下、任何人(机器)、任何时间都可以自动获取外界的属于视觉功能要求范畴内的东西,并且从机器的视觉角度出发,对这样的东西自动生成机器在视觉范畴上的认知和理解。
(二)“机器的机器视觉”的实现路径
从上述“机器的机器视觉”的三个远大目标来分析,可以划分出两个类别,一个为“视”和“感”,另一个是“觉”与 “知”。“机器的机器视觉”的第一个目标——被动式、实时、高精度、低功耗的三维图像生成能力属于“视”和“感”的范畴,它的第二个和第三个目标属于“觉”和“知”的范畴。
以上三个目标并非并列,而属于逐层递进的关系。“视”和“感”是“觉”和“知”的前提条件,只有完成“视”和“感”才能实现“觉”和“知”,才能完整地称为“视觉”和“感知”,只有通过对外界世界大量和充分的“觉”和“知”,才能最后形成对世界万象的视觉归纳、总结,最后实现机器对外部世界的“理解”。
所以,对于“机器的机器视觉”的三个远大目标,在技术上必须采取分步实施的方式逐步完成。其实现路径就是:首先要求依靠“机器眼”,使机器能够完整、客观、快速、准确地接收外部世界的视觉信息。当机器获得了这些信息后,接着对其进行自动加工和处理,得到关于外部世界的视觉模型;依靠这样的模型,机器得到对外部世界的视觉记忆;通过对视觉记忆的比较、分类、整理,得到机器对外部世界的客观“视觉”感觉;通过不断输入的大量的客观“视觉”感觉,依靠学习和分析最后达到对客观世界的“视觉理解”。以上这个过程,就是“机器的机器视觉”的实现过程和路径。
这样的实现路径,可以用幼儿睁眼看世界来做个类比。我们可以设想当幼小的孩子第一次看到苹果后的一系列反应:他通过眼睛看到了苹果的图像,按照人眼的功能,他可以看出苹果的外部形状和大小尺寸,看到表面颜色和纹理,当听到父母把它称为“苹果”时,当他吃到“苹果”时,他关于“苹果”的视觉记忆以及相关的属性和概念记忆就初步成型了。当再给他一个梨的时候,如果没有父母的提醒,八成他会把梨当作苹果,当父母再给出“梨”的概念后,他就会形成关于苹果和梨在视觉上的区别化记忆。这样的过程,与当前流行的建立在庞大数据集上的机器视觉学习存在根本的不同,我们可以称为“一次性示范学习”,或称为是建立在物体准确的空间几何模型上的视觉感知、学习和理解。
(三)三维图像生成能力是实现“机器的机器视觉”的前提
对于三维图像生成能力是实现“机器的机器视觉”的前提这样一个命题,我们是根据智慧生物的眼睛的功能简单的进行类比而得出的,这样的命题如果不做出令人信服的论证,相信许多人会提出反对意见,特别是对于如今火热的机器视觉学习专家来说,难以接受。因为,基于二维图像上的机器视觉学习,已经解决了大量的机器视觉的问题,包括:机器认字、机器识别双胞胎、机器视频检测、网络图像分类等等,而且随着技术发展,大量的机器视觉问题都会得到逐一攻克。所以许多人就会认为既然二维图像已经解决了大量的机器视觉问题,我们有什么必要去费力地把图像由二维变成三维呢?既然三维图像生成能力是实现“机器的机器视觉”的前提,是否说没有三维图像就实现不了“机器的机器视觉”了呢?
对于采用二维图像最终能否实现“机器的机器视觉”这个问题,很难简单的回答,但如果我们换一个角度来思考,假设我们能够得到一张理想的三维图像,同时把机器学习建立在三维图像的基础上,那么是否可以抛掉对大量图像数据集的学习,实现一次性的示范学习呢?同时,如果把机器视觉建立在三维图像的基础上,是否能在机器的视觉感知和理解上带来意料之外的好处呢?
对于三维图像生成能力是实现“机器的机器视觉”的前提这样一个命题,我们尝试从以下几个角度来进行讨论:
1、二维图像是三维客观世界在平面上的投影,单幅二维图像的信息,不足以完整、快速、客观的反映真实世界。
让我们来分析一下为什么幼儿可以通过“一次性示范学习”快速形成对事物的视觉认知,而目前的机器学习必须建立在庞大的数据集上。
我们认为最主要的原因,在于幼儿的视觉是对于空间景物的三维真实感知,是对客观世界的充分和完整的反应,只有在视觉信息建立在真实和客观的前提下,才能保证他的视觉能够快速客观的对外部世界做出准确的感知和反应。
当前视觉领域的机器学习,需要海量的平面图像数据集以及强大计算能力作为支撑,是因为二维图像是三维客观世界在像平面上的一个投影,这个投影过程遵守针孔成像原理,存在近大远小的透视定律,这样的投影方式必然造成成像后的图像失真。用信息论来解释,就是在用二维图像获取客观真实世界的信息过程中,信号出现了衰减和干扰,噪声信号淹没了一部分真实信号。而机器学习的过程,就是从二维图像信息中提取三维世界的真实信息的过程,从大量含有噪声的信息中进行分类统计,还原出三维空间的真实客观存在,而且还原后的信息也不是一个明晰的几何具像或信号,其中的判断过程还是一个黑箱过程。
2、三维空间几何的直观、清晰、准确、可计算、可测量性直接消除了平面图像视觉信息的歧义,不用辨别和判断,仅依靠基本的几何和纹理特征,不用通过大量学习过程,就可以实现直接分类,达到和实现视觉上的感知和理解。
从几何学角度分析,三维客观世界的空间分布是可以被直接、直观观察的,是可以通过几何分析进行精确描述的。通过三维建模,可从物体的形状、大小、位置、纹理、空间分布、光反射性能等直观给出物体的属性和分类,这种直观和直接的观察和描述是客观真实的、精确的、非离散连续的、几乎是无歧义的,可以实现被视物的精确判断和分类。所以,“机器眼”的三维能力对于下步的视觉识别和视觉理解十分重要。
用智慧生物的眼睛功能来类比,幼儿之所以可以实现“一次性示范学习”,是因为人的双眼图像,经过非凡的人类大脑进行运算后,能够准确地解算出外部世界真实的三维面貌。对于幼儿来说,根据物体的空间分布状况及其边缘轮廓和表面纹理信息可以清晰地、轻而易举地对视场范围内的物体进行背景分离;根据物体外形形状、大小尺寸、表面纹理和颜色,能够准确的对被视物体基本视觉属性进行识别和确认;根据物体在不同时间段上的空间位置或尺度的变化,能够快速得到物体关于运动和轨迹方面的趋势和属性判断。由于幼儿拥有这样的三维视觉能力,他对于周围空间及物体的认识是真实、客观和全面的,一个幼儿在成长过程中,当大脑不断得到长期的、准确的、海量的视觉信息充实以后,对于物体和场景的视觉属性的分类和识别就变成顺理成章的了。
再对照看一下当前的机器视觉学习技术现状。由于不具备很强的三维能力,一般采用二维图像的处理来解决视觉理解问题,其过程复杂,而且还需要大量的个性化技术处理。将不同物体在平面图像上的投影在空间上分离,就是一件复杂的技术问题。再根据平面物体的边缘形状或纹理判断物体的类别,根据类别和平面投影的位置判断物体的距离和大小,还原出真实的三维世界,技术上难度逐步增大。再要让建立在这样二维图像上的机器视觉达到对真实世界的理解和认识,几乎是难上加难。
所以,综合以上分析,三维图像生成能力是实现“机器的机器视觉”的前提。
(四)如何让机器具有
自动高速的三维图像生成能力
既然三维图像生成能力是实现“机器的机器视觉”的前提,那么,这样的技术是否存在?如何让机器具有自动和快速的三维图像生成能力呢?北京清影机器视觉技术有限公司通过完全自主创新,自行开发完成“通用式三维即时成像技术”,研制成功具有通用视觉的三维“矩阵相机”。目前,该“矩阵相机”首先实现的是自动三维“感觉”,在秒级以内自动获得被视场景的三维影像,其下步的目标就是“知道”。我们今后的目标,就是依托“矩阵相机”的自动三维视觉传感能力,最终实现“机器的机器视觉”。关于清影公司的“矩阵相机”的相关技术,我们在下面的系列文章中进行详细介绍。
我们的一小步,机器世界的一大步……