联系我们

人工智能 101

什么是计算机视觉?

mm

更新

 on

什么是计算机视觉?

目前,计算机视觉算法是世界上最具变革性和功能最强大的AI系统之一。 计算机视觉系统 参见在自动驾驶汽车,机器人导航,面部识别系统等中的使用。但是,计算机视觉算法到底是什么?它们如何工作?为了回答这些问题,我们将深入研究计算机视觉,计算机视觉算法和计算机视觉系统应用程序背后的理论。

计算机视觉系统如何工作?

为了充分理解计算机视觉系统是如何工作的,我们首先花一点时间来讨论人类如何识别物体。神经心理学对我们如何识别物体的最好解释是描述模型初始阶段的模型。 对象识别 大脑首先要解释物体的基本组成部分,例如形式,颜色和深度。分析来自眼睛的信号进入大脑 首先是对象的边缘,然后将这些边连接在一起,形成一个更复杂的表示形式,以完成对象的形式。

计算机视觉系统的操作与人类视觉系统非常相似,首先要识别对象的边缘,然后将这些边缘结合在一起形成对象的形式。最大的区别在于,因为计算机将图像解释为数字,所以计算机视觉系统需要某种方式来解释构成图像的各个像素。计算机视觉系统将为图像中的像素分配值,并通过检查一个像素区域和另一个像素区域之间的值差,计算机可以识别边缘。例如,如果所讨论的图像是灰度图像,则值的范围从黑色(由0表示)到白色(由255表示)。彼此接近的像素值范围的突然变化将指示边缘。

比较像素值的基本原理也可以通过彩色图像来完成,计算机可以比较不同RGB颜色通道之间的差异。众所周知,我们知道计算机视觉系统如何检查像素值以解释图像,下面让我们看一下计算机视觉系统的体系结构。

卷积神经网络(CNN)

用于计算机视觉任务的AI的主要类型是 基于卷积神经网络。到底是什么卷积?

卷积是网络用来确定像素之间的值差的数学过程。如果您预想了一个像素值网格,请在该主网格上移动一个较小的网格。网络正在分析第二个网格下面的值,因此网络一次只检查几个像素。这通常被称为“滑动窗口”技术。网络汇总由滑动窗口分析的值,这有助于降低图像的复杂度,并使网络更容易提取图案。

卷积神经网络是 分为两个不同的部分,卷积部分和完全连接的部分。网络的卷积层是特征提取器,其功能是分析图像中的像素并形成它们的表示形式,使神经网络的密集连接层可以从中学习模式。卷积层首先检查像素并提取图像的低级特征(如边缘)开始。后来的卷积层将边缘合并在一起,形成更复杂的形状。到最后,该网络有望对可以传递到完全连接的层的图像的边缘和细节进行表示。

图像注释

虽然一个 卷积神经网络 由于可以单独从图像中提取图案,因此可以通过对图像进行注释来大大提高计算机视觉系统的准确性。 图片标注 是将元数据添加到图像的过程,可帮助分类器检测图像中的重要对象。每当计算机视觉系统需要高度精确时,例如在控制自动驾驶汽车或机器人时,图像注释的使用就很重要。

可以使用多种方法对图像进行批注,以改善计算机视觉分类器的性能。图像批注通常是用边界框完成的,边界框围绕目标对象的边缘,并告诉计算机将注意力集中在该框内。语义分割是图像注释的另一种类型,它通过将图像类分配给图像中的每个像素来进行操作。换句话说,每个可能被视为“草”或“树”的像素都将被标记为属于这些类别。该技术提供了像素级的精度,但是创建语义分段注释比创建简单的边界框更为复杂且耗时。还存在其他注释方法,例如直线和点。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。