您好,欢迎来到刀刀网。
搜索
您的当前位置:首页关于深度学习的图像检索系统探讨

关于深度学习的图像检索系统探讨

来源:刀刀网


关于深度学习的图像检索系统探讨

随着计算机技术的飞速发展,数字图像的信息量越来越大,基于文本的图像检索已不能满足人们的需求。因此各种基于内容的图像检索算法也因此迅速兴起,图像检索的关键步骤是有效的图像特征提取和准确的特征匹配。本文针对深度学习的图像检索系统进行了分析。

标签:深度学习;深度卷积神经网络;图像检索

一、图像检索系统流程

一个图像检索系统一般包括图像检索部分,图像检索库建立部分,模型建立部分和系统维护部分。其中图像检索是功能核心,图像检索库和检索模型是整个系统的基础,而系统维护是保障。图像检索也就是计算机自动检索出图像库中与待检索图像最相似的图像。因此我们需要先建立一个我们要检索的图像库,并将库中所有图片经过我们建立好的神经网络模型提取特征然后保存。然后输入待检索图像,通过神经网络模型提取出高维特征,然后与库中图片特征进行特征匹配,依次输出相似度由高到低的图片从而完成基于深度学习的图像检索系统。

二、深度学习

深度学习是科学家们受人脑神经系统启发,而设计的一种模型,其目标是让计算机有人的智慧完成一些生活中的一些实际问题,如图像领域的目标检测、图像识别,语音识别和机器翻译等。在图像应用领域,深层的神经网络模型可以抽取出图像的深层次特征,相对于传统的基于经验提取特征有着巨大的优势。而深度学习的本质就是构建具有多个隐藏层的深层神经网络模型,在更高维度上面表征图像,最后用在图像分类、识别等各种领域。

卷積神经网络(ConvolutionalNeuralNetworks,CNN)是一种深层神经网络,广泛用于图像应用的相关任务。CNN一般包括有数据输入,卷积计算,池化操作和全连接操作等几个部分。以早期的经典网络LeNet-5应用于手写数字识别为例,LeNet-5总共有7层,两个卷积层,两个最大池化层,三个全连接层。首先是输入32(32的图像,经过6个5(5的卷积核进行卷积,得到28(28的特征图。再通过最大池化,保留最有用信息,得到14(14的特征图。然后通过16个5(5的卷积核进行卷积,得到16(10(10的特征图。再经过最大池化,得到16(5(5的特征图。最后经过三个全连接层最后输出十个节点分别代表识别为0-9十个数字的概率。最后完成手写数字识别的功能。

三、基于深度学习的特征提取

在深度学习广泛用于图像识别分类等相关任务之前,研究者们常用基于传统的图像处理方法来提取图像的特征。基于传统方法提取的图像特征用于图像检索的准确度不高且常常需要人为地调整相关参数,因此在实际运用时有一定的缺

陷。而基于深度学习的图像特征提取,可以很好的提取出图像的更深层次特征,它构建一个含有多个隐藏层的卷积神经网络模型,能够在更高维度表征图像。将神经网络模型提取出的特征用于代表图像,从而可以实现快速且检索准确率高的图像检索系统。

我们神经网络模型选择VGGNet-19。VGGNet是由全球知名的牛津大学视觉几何组(VisualGeometryGroup)提出的一种优秀的网络模型,它取得了ILSVRC-2014比赛中定位任务第一名和分类任务第二名。VGGNet特别之处在于提出了用很小的卷积(3(3)和加深网络深度可以很突出地提升模型的效果。除此之外,VGGNet在其他数据集上也表现出了优秀的泛化能力。如图2所示,VGGNet-19总共有5个卷积段,每段卷积后面有一个最大池化层,最后经过三个全连接层,经过softmax输出结果。

我们首先用ImageNet数据集预训练VGGNet-19,在达到90%以上的图像识别准确率的时候,将网络模型参数保存下来。接下来建立图像检索库,选取若干张图片建立图片检索库Images{I1,I2…In},然后将库中图像全部加载至我们训练好的VGG模型分别提取出倒数第二层的全连接层输出的4096维特征,然后保存至图像特征数据库P{P1,P2…Pn}。这样我们就完成了系统的图像检索库和模型的建立。

四、基于CNN特征的图像检索

深度学习技术还包括机器学习,概率与线性代数,统计及应用等一系列技术。值得一提的是深度学习在图像中的应用已经非常成熟,包括人脸识别,图像增强等一系列技术已经落地到相关产品中。基于卷积神经网络(CNN)的深度学习模型仍是当前研究的热点,每年有一大批的优秀研究成果出现。尤其是在图像分类任务中,深度学习模型已经能够达到或者超过人眼的识别准确率。虽然图像检索和图像分类属于不同的应用,但我们可以拿训练分类的模型中隐藏层的输出当作我们提取出的特征,然后用于图像检索。

在完成上一步网络模型和图像特征库的建立之后,接下来是实现系统的核心功能—图像检索。首先是选取一张待检索的图片,输入至VGGNet-19,参数选择加载我们上一步训练保存好的模型,然后将倒数第二层全连接层输出的4096维特征S保存。

最后将保存好的待检索图像的高维特征S和步骤3保存的图像特征数据库P中图像的高维特征一一匹配,求出距离最近的十张图像,按距离由近到远依次输出,相关结果可参见图1。

在这里我们选取常用的欧氏距离表征两张图像高维特征之间的距离。欧式距离,也称欧几里得度量(Euclideanmetric),是一个经常在工程界采用的距离定义,具体是指在m维空间中两个点或者向量之间的真实距离。在我们这包括4096维的特征向量,其定义公式如公式1。

五、结束语

随着移动互联网的普及,电子商务和网络社交等新型事物已经在我们生活中变得非常流行。图像视频等信息已经成为我们生活中交流的重要一部分。然而网络上的图像千奇百怪,良莠不齐,这直接影响到我们网络生活的体验,甚至会带来不良后果。因此我们希望能够快速准确地筛选信息,检索到我们需要的图像。基于深层神经网络的深度学习技术可以帮我们达到这一目的。本文首先大概介绍了深度学习,之后借助深度学习技术运用良好的模型VGGNet提取图像的深层次特征,然后进行特征匹配,最后根据相似度大小输出检索结果完成了检索比较准确,速度较快的图像检索系统。当然系统还有一定的缺陷,比如没有具体量化准确率,还没有尝试利用更多的网络模型提取图像特征做对比实验来比较效果。这也为我们以后的工作提供了方向。

参考文献:

[1]胡二雷,冯瑞.基于深度学习的图像检索系统[J].计算机系统应用,2017,26(3):8~19.

[2]刘洋.基于深度学习的图像检索技术研究[D].华中科技大学,2015.

[3]曹卫娜.基于深度学习的图像检索研究[D].电子科技大学,2016.

[4]孙韶言.基于深度学习表征的图像检索技术[D].中国科学技术大学,2017.

[5]朱啸天.基于深度学习的动物图像检索算法研究[D].沈阳理工大学,2016.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务