机器视觉漫谈系列之一

无论明与暗,无论光与影,也无论万水千山还是沧海桑田,在我们的镜头里都是数字与数据。让机器睁开眼睛看世界... ...

 

(一)

  对于“机器视觉”来说,可以给出一个比较宽泛的定义,一般可以理解为:通过机器设备中对外界三维尺寸能够感知的技术装备和手段,实现对外界物体或周围环境空间尺寸、位置、纹理及运动状态进行感知和测量,产生人眼可直接观察的图形和图像,并且通过图像识别算法,解决关于图形和图像特定问题的机器系统及其所具有的对图像处理的功能。

 

 

  符合以上定义的机器视觉系统,包括流水线上通过图像识别检查产品外观缺损、标签印刷错误、电路板焊接质量缺陷的图像识别系统;通过机器学习能够在海量图像中上找出指定物体的系统;各类智能交通设备上用于汽车车号读出和测速的系统;以及各类安全监控设备上对于人脸进行自动识别的系统等等。

 

  符合目前 “机器视觉”定义的系统,一般具有以下几个特征:首先,系统对于外界需要具有感知能力,能够自动生成人眼可直观观察的二维或三维图像;其次,系统针对图像必须具有一定的智能识别功能。只有符合以上两个条件,才可以认为达到了机器视觉的基本要求。

 

(二)

  目前,人工智能概念火热,特别是江苏卫视“最强大脑”节目,机器视觉使用童年照片就能在众多人群中挑选出照片上的已经长大成人的女孩,而且还区别出长相基本相同的双胞胎,按一些人的说法,机器视觉已经全面战胜和超越人类。

 

  我们借助望远镜可以看到遥远的星河;借助显微镜可以看到分子结构;通过百万级数量图片的比对,可以从监控中抓出隐藏的罪犯;在高速流水线上,每秒可以完成成百上千个标签的检查和验证;在医院里可以找出隐藏在身体内的变异细胞……是啊,按照目前的某些机器视觉功能,人类怎能匹敌?

 

  但仔细想一下,还是有些感觉不对。就拿“最强大脑”节目来说,如果再问一下,识别出的双胞胎是男的还是女的?大概多大岁数?身高胖瘦几何?是在跳舞还是唱歌?这些对于人的视觉能力来说,可以说完全不是问题,但对于参赛的那个机器视觉系统来说,估计很难达到。因为,它只设计了“看脸”和“比脸”的程序和系统,其它能力在程序中无法全部涵盖。要识别性别,需要一套识别性别的系统;要识别身高,需要另一套测量身高的系统;要识别年龄、识别动作,还需要编制另外的系统。而且,就拿人脸系统来说,还需要人站在固定的位置、需要辅助照明、需要脸部正面图像等等……

 

  所以说,目前的机器视觉在特定的场合和特定的任务方面,基本能够达到甚至超过人类的视觉。但在视觉的智能化和自动化方面还有巨大差距,而且可以认为目前的机器视觉基本没有类似生物视觉的智能特征,无法和任何一个智慧生物的“视觉”相比。

 

  我们认为在智能化方面现有的 “机器视觉”和生物视觉的差距主要表现在以下几个方面:

 

  1、现有视觉系统功能的单一性。看一下我们接触最多的智能交通系统:抓拍车号的相机只能拍车号,不能测速,不能自动辨别车型,而且必须在固定位置,必须有外部辅助光源和拍照触发和启动传感装置;对于闯红灯和超速的车辆检测和识别,必须要由另外的相机完成。

 

  2、现有视觉系统的专业局限性和复杂性。现有的机器视觉系统,都需要有专业技术人员,进行专门的编程和系统设计。一个功能对应一套软件和一套专门的系统,这样的系统一般都对应着高昂的价格和高级的人才,无法为普通用户所掌握。

 

  3、现有视觉系统对于被摄物和环境有很强的相关性。不同的被摄物,不同的功能要求,需要不同的软件,同时系统需要配备专用的相机、专用的镜头、专用的辅助流水线和专用的辅助灯光和对背景进行特定设置等等。只要被摄物发生任何改变,例如:规格、大小、型号、摆放位置、标签等发生改变,都必须对程序进行修改和重新设计。

 

  4、现有视觉系统一般都是基于二维图像的视觉感知,基本不具备三维实时感知能力。对于三维感知,目前一般采用激光扫描或双目加结构光的方式,这些方式有时还需要提前标定,还需要完成长时间的三维建模运算,有时还要固定应用场景或提前对被视物建模,另外,大部分需要一些人工干预以及延时和后期处理。

 

  5、现有的图像识别采用的机器学习方法,对于图像的理解,一般针对特定图像类别和固定的应用场景,还不具有智能生物的真正意义上的视觉感知和视觉理解能力。而且,智能生物对于外部空间和物体是依靠三维感觉而形成,目前的图像机器学习算法,一般都是基于二维图像数据,在对空间的感知和理解能力来说,具有先天的缺陷和弱点。

 

  基于以上分析,我们认为目前这样的“机器视觉”应该是由人工智能计算来实现的,一种视觉就对应一种特有的软件和系统,完成一种固定的视觉任务,在算法和数据层面无法实现各视觉系统在机器视觉上的统一。而且,对于图像内容的理解方面,由于神经网络存在的黑箱性质,机器无法达到令人信服的对视觉的理解要求。

  那么这样的机器视觉系统,是否只应该叫做“人工的机器视觉”?因为这样的“人工的机器视觉”不具有通用性,不能让机器自动产生对视觉的理解。

 

(三)

  那么,是否存在“机器的机器视觉”呢?这样的“机器的机器视觉”系统应该能够克服以上问题,就象生物的眼睛一样,能够快速、直观的获得外界空间的各类视觉信息,实现所见即所得,成为真正意义上机器的眼睛。这样的机器的眼睛应该具有一定的算法通用特征和被动测量特征,能够自动完成对外界和环境的认识和识别,就象生物视觉一样,具有视觉上的智能。我们可以把它叫做“机器眼”。

 

  所以相对应于上述宽泛的机器视觉定义来说,我们可以得出一个更加狭窄的定义,那就是“机器的机器视觉”或可称之为“机器眼”。这种“机器眼”是一种能够自主产生观测结果、不需要人工的设计和干预、实现对外界的空间环境的直观感知和判断的机器视觉。

  通常意义上的视觉“感知”,包括两个组成部分,一个是“感觉”、另一个是“知道”。“感觉”是对环境和物体的大小、位置、纹理、运动状态等视觉特征进行测量并获取这些视觉特征的相关数据;“知道”是通过视觉数据,判断出物体的各类属性数据,并通过这样的属性数据的分类,采用人工智能或者机器学习的手段,进一步得到被视物体的类别、名称、空间位置、空间尺寸、表面纹理、以及运动状态等等。

 

  目前人工智能正在向纵深方向发展,用机器可以理解的方式自动完成各类任务的具有通用特征的“机器智能”正逐步向我们走来。在这个过程中,作为“机器智能”必备的且起决定作用的“机器的视觉”,必然成为技术发展的焦点和热点,对于“机器的视觉系统”必然要由目前“人工的机器视觉系统”,发展到“机器的机器视觉系统”。所以我们认为,机器视觉的定义,应该是指最后的一种狭窄的机器视觉定义,就是“机器的机器视觉”,也就是“机器眼”。这样的视觉更像机器拥有生物的眼睛一样,能够主动地对外界环境进行动态的跟踪、测量和感知。

 

  目前,对于机器人的听觉,已经有了很深入的研究,对于语音的识别也具有了很高的准确率。对于服务机器人和拟人机器人,目前与外界的交互主要以语音为主。上述机器人系统以及无人机或无人汽车等需要机器视觉的无人自动系统,视觉方面主要是以激光测距或平面二维图像的识别为主,三维感知功能很弱。这样的视觉系统一般只针对特定场景使用,不能够实现普遍性的机器视觉,达不到机器人的要求。因此对于机器智能来说,急需能够具有普遍适用性的具有“机器的机器视觉”的“机器眼”。

 

(四)

  那么,现在是否存在这样的“机器的机器视觉”呢?北京清影机器视觉技术有限公司通过完全自主创新,自行开发完成“通用式三维即时视觉传感技术”,研制成功具有通用视觉的三维“多目慧眼”,目前,该“多目慧眼”首先实现的是自动三维“感觉”,在秒级以内自动获得被视场景的三维影像,其下步的目标就是“知道”。我们今后的目标,就是依托“多目慧眼”的自动三维成像能力,最终实现“机器的机器视觉”。

 

  这是我们的一小步,然而是机器世界的一大步……

分享到
Copyrihgt © 2017 Clemage All Rights Reserved   北京清影机器视觉技术有限公司   京ICP备16052608号