一、机器视觉与计算机视觉的区别与联系
在很多情况下,我们误认为机器视觉就是计算机视觉,其实这是不准确的。何为机器视觉?何为计算机视觉?首先我们从定义着手,机器视觉其实就是用机器代替人眼进行测量和判断。计算机视觉是利用计算机和其辅助设备来模拟人的视觉功能,实现对客观世界的三维场景的感知、识别和理解。机器视觉和计算机视觉不仅是两个不同的概念,而且侧重点也不同。机器视觉侧重工程的应用,强调实时性、高精度和高速度;而计算机视觉侧重理论算法的研究,强调理论,由于理论的研究发展速度往往快于实践应用,也就是说计算机视觉的发展速度要远远超过了其时间生产的应用速度,因此计算机视觉的很多技术目前还难以应用到机器视觉上。但是二者还是共用一套理论系统,只是发展的方向不同而已,一个侧重实际应用,一个侧重理论算法的研究,不能说谁替代谁,各有千秋。
二、近年来视觉发展的状况和遇到的瓶颈
1、算法瓶颈。机器视觉研究对象主要是图像和视频,我们所采集的图像和视频,其特点是大数据、冗余信息多、特征空间维度高,同时考虑到真正的机器视觉面对的对象和问题的多样性,单一的简单特征提取算法(如颜色、空间朝向与频率、边界形状等等)难以满足算法对普适性的要求,因此在设计普适性的特征提取算法时对计算能力和存储速度的要求是十分巨大的,这就造成了开发成本的大幅度提高。
2、场景认知问题。如何让机器认知这个世界?这一问题目前没有成熟的答案,也是目前科学家一直在研究的热点方向。早期的人工智能理论发展经历了符号主义学派、行为主义学派、连接主义学派等一系列的发展但都没有找到令人满意的答案,目前较新的思想认为应该从分析、了解和模拟人类大脑的信息处理功能去构建智能机器视觉系统,但神经科学的发展目前只能做到了解和模拟大脑的一个局部,而不是整体(当然计算能力限制也是原因之一)。事实上,我们对人是如何对一个目标或场景进行认知的这一问题仍停留在定性描述而非定量描述上。
3、准确性问题。机器视觉系统经常被人诟病的问题之一就是准确性。以十年前如火如荼的人脸识别算法为例,尽管一系列看似优秀的算法不断问世,但目前为止那些算法都是在指定的样本库中进行的,而在非指定大规模样本库下进行人脸识别的准确率仍然无法满足实际应用的需求,因此无法取代指纹或虹膜等近距接触式生物特征识别方法。这一问题的出现并非偶然。因为目标越精细,越复杂,信息越大,则其模糊性和不确定性也越强。人类之所以能够较好的对人脸进行识别,其实也是以牺牲一定的准确性为代价的。而机器视觉在做的事情一方面想要借鉴人脑或人眼系统的灵感去处理复杂而庞大的信息流,另一方面又想摒除人脑在模式识别方面存在的精确性不足的缺陷。这显然是一种一厢情愿的做法。
4、鲁棒性问题。相比与其他测量手段,视觉的最大优点就是可以快速获得三维信息,一张或几张照片就可以重建出被测物体的三维特征,进而实现测量。但正如我们所知道的,只要测量条件、环境、被测物表面特性等改变,有时甚至时稍加改变,结果则大不一样,测量重复性和精度更无从谈起。这也是目前机器视觉测量尺寸、位姿等参数时比较突出的问题,特别是在一些强光干扰、温度场变化、光照条件变化的应用场合这个问题尤为突出。
5、人才的缺少。目前真正意义上的从业人员缺少科班出身,缺少对图像处理的底层理论认知和理解。机器视觉中图像处理是极为重要的一环,而目前大多数从业人员是本科或者大专毕业,或者是电气工程师新入行,基本都比较缺乏图像处理的基本理论。虽然相对于普通的自动化从业者而言,机器视觉工程师待遇还是不错的,但是却难以吸引到硕士或者博士进行过专门图像处理学术训练的人加入,因为随便加入那个互联网大公司做图像相关工作,待遇都能把自动化从业的工程师甩出几条大街。另外,机器视觉更多的应用是属于自动化设备这一块。而自动化属于比较交叉的学科,涉及到机器视觉,需要了解的东西包括、电气、运动控制、机械、光学、软件编程等。这些学科了解一些基本的东西不难,但是研究的比较透彻并能高效率的综合运用就比较难了。
目前的工业上视觉方面应用主要有:检测、测量、识别和定位。而这几个方面机器视觉还没有一个能真正意义上实现批量化检测的同时保证极高的准确率,极小的误检率和杜绝漏检。这个目标不能实现,降低了机器视觉的应用预期。因为机器视觉设备不能完全解决,还是需要人复查,除非客户的标准没有那么高。这也导致目前机器视觉在工业上应用没有那么快普及的原因之一。为什么机器视觉会遇到瓶颈?主要是过不了客户那一关——高精度、高速度、高准确率,并且实时性还要好。
国内硬件核心部件(相机和镜头)和软件算法包还是老外的产品领先,国内也出现了一些替代产品,从性能上和老外PK还有很大的差距。
在很多情况下,我们误认为机器视觉就是计算机视觉,其实这是不准确的。何为机器视觉?何为计算机视觉?首先我们从定义着手,机器视觉其实就是用机器代替人眼进行测量和判断。计算机视觉是利用计算机和其辅助设备来模拟人的视觉功能,实现对客观世界的三维场景的感知、识别和理解。机器视觉和计算机视觉不仅是两个不同的概念,而且侧重点也不同。机器视觉侧重工程的应用,强调实时性、高精度和高速度;而计算机视觉侧重理论算法的研究,强调理论,由于理论的研究发展速度往往快于实践应用,也就是说计算机视觉的发展速度要远远超过了其时间生产的应用速度,因此计算机视觉的很多技术目前还难以应用到机器视觉上。但是二者还是共用一套理论系统,只是发展的方向不同而已,一个侧重实际应用,一个侧重理论算法的研究,不能说谁替代谁,各有千秋。
二、近年来视觉发展的状况和遇到的瓶颈
1、算法瓶颈。机器视觉研究对象主要是图像和视频,我们所采集的图像和视频,其特点是大数据、冗余信息多、特征空间维度高,同时考虑到真正的机器视觉面对的对象和问题的多样性,单一的简单特征提取算法(如颜色、空间朝向与频率、边界形状等等)难以满足算法对普适性的要求,因此在设计普适性的特征提取算法时对计算能力和存储速度的要求是十分巨大的,这就造成了开发成本的大幅度提高。
2、场景认知问题。如何让机器认知这个世界?这一问题目前没有成熟的答案,也是目前科学家一直在研究的热点方向。早期的人工智能理论发展经历了符号主义学派、行为主义学派、连接主义学派等一系列的发展但都没有找到令人满意的答案,目前较新的思想认为应该从分析、了解和模拟人类大脑的信息处理功能去构建智能机器视觉系统,但神经科学的发展目前只能做到了解和模拟大脑的一个局部,而不是整体(当然计算能力限制也是原因之一)。事实上,我们对人是如何对一个目标或场景进行认知的这一问题仍停留在定性描述而非定量描述上。
3、准确性问题。机器视觉系统经常被人诟病的问题之一就是准确性。以十年前如火如荼的人脸识别算法为例,尽管一系列看似优秀的算法不断问世,但目前为止那些算法都是在指定的样本库中进行的,而在非指定大规模样本库下进行人脸识别的准确率仍然无法满足实际应用的需求,因此无法取代指纹或虹膜等近距接触式生物特征识别方法。这一问题的出现并非偶然。因为目标越精细,越复杂,信息越大,则其模糊性和不确定性也越强。人类之所以能够较好的对人脸进行识别,其实也是以牺牲一定的准确性为代价的。而机器视觉在做的事情一方面想要借鉴人脑或人眼系统的灵感去处理复杂而庞大的信息流,另一方面又想摒除人脑在模式识别方面存在的精确性不足的缺陷。这显然是一种一厢情愿的做法。
4、鲁棒性问题。相比与其他测量手段,视觉的最大优点就是可以快速获得三维信息,一张或几张照片就可以重建出被测物体的三维特征,进而实现测量。但正如我们所知道的,只要测量条件、环境、被测物表面特性等改变,有时甚至时稍加改变,结果则大不一样,测量重复性和精度更无从谈起。这也是目前机器视觉测量尺寸、位姿等参数时比较突出的问题,特别是在一些强光干扰、温度场变化、光照条件变化的应用场合这个问题尤为突出。
5、人才的缺少。目前真正意义上的从业人员缺少科班出身,缺少对图像处理的底层理论认知和理解。机器视觉中图像处理是极为重要的一环,而目前大多数从业人员是本科或者大专毕业,或者是电气工程师新入行,基本都比较缺乏图像处理的基本理论。虽然相对于普通的自动化从业者而言,机器视觉工程师待遇还是不错的,但是却难以吸引到硕士或者博士进行过专门图像处理学术训练的人加入,因为随便加入那个互联网大公司做图像相关工作,待遇都能把自动化从业的工程师甩出几条大街。另外,机器视觉更多的应用是属于自动化设备这一块。而自动化属于比较交叉的学科,涉及到机器视觉,需要了解的东西包括、电气、运动控制、机械、光学、软件编程等。这些学科了解一些基本的东西不难,但是研究的比较透彻并能高效率的综合运用就比较难了。
目前的工业上视觉方面应用主要有:检测、测量、识别和定位。而这几个方面机器视觉还没有一个能真正意义上实现批量化检测的同时保证极高的准确率,极小的误检率和杜绝漏检。这个目标不能实现,降低了机器视觉的应用预期。因为机器视觉设备不能完全解决,还是需要人复查,除非客户的标准没有那么高。这也导致目前机器视觉在工业上应用没有那么快普及的原因之一。为什么机器视觉会遇到瓶颈?主要是过不了客户那一关——高精度、高速度、高准确率,并且实时性还要好。
国内硬件核心部件(相机和镜头)和软件算法包还是老外的产品领先,国内也出现了一些替代产品,从性能上和老外PK还有很大的差距。