将详细分类算法应用于汽车之家车系识别业务

不少人都想知道关于将详细分类算法应用于汽车之家车系识别业务和奔驰g 5x5,接下来让小编详细讲解吧!


简单的介绍


本文主要介绍深度学习图像分类的经典网络结构和发展过程,回顾细粒度图像分类的注意力机制,最后介绍汽车之家团队参加CVPR2022细粒度分类所使用的模型和相关算法。做。竞赛与参赛该模式在汽车之家车系识别业务中的经验与应用。对于想要了解图像分类任务、相关竞品技术以及商业应用的读者具有一定的参考意义。


1基于深度学习的图像分类神经网络


自AlexNet[1]出现以来,它在ImageNet[2]竞赛中取得了625的顶级准确率,比SIFT+FVs[3]等现有算法高出82,深度神经网络已成为主导算法。在图像分类领域,VGG[4]、ResNet[5]、Inception[6]、DenseNet[7]相继出现。Google于2019年提出的EfficientNet[8],将网络架构设计从手动推向了自动搜索时代。2020年,Google提出VisionTransformerViT[9],将自然语言处理领域的Transformer结构引入到图像分类中,将图像分类带入Transformer时代。


VGG[4]由GoogleDeepmind和英国牛津大学的研究人员联合开发,使用多个级联的3x3小卷积核代替7x7大卷积核,在保证感受野的同时显着减少网络参数。数量。VGG[4]的另一个贡献是通过加深网络结构来提高分类精度,在ImageNet[2]数据集上使用19层网络的top-1分类精度达到了745。


2015年,当时在微软工作的何凯明、孙健等人提出了ResNet[5]。通过引入图1中的残差结构,我们有效解决了深度神经网络训练过程中的梯度消失和梯度爆炸题。同时,它解决了“退化”题,即随着网络加深,分类精度变差。我们首次在ImageNet[2]数据集上使用152层超深网络实现了优异的分类精度,top-1精度达到7857,在2015年ImageNet[2]竞赛中获得第一名。分类轨迹。


图1残差模块


一些研究人员,例如何凯明,通过加深网络深度来提高分类效果,但谷歌的一些研究人员在网络宽度上也取得了很大进展,从2014年到2016年开发了InceptionV1到V4网络结构。其他。InceptionV1[5]网络的设计思想是主要使用稠密组件来近似网络的稀疏结构,为此,Google研究人员去掉了Inception的基本结构,如图2所示。该结构使用多个并行卷积和最大池化来近似稀疏结构,同时引入多尺度特征。InceptionV2[6]基于与VGG[4]相同的论文,并使用多个级联的3x3卷积而不是5x5卷积。我们还添加了BatchNormalization对数据进行归一化,top-1准确率达到了748。InceptionV3[6]提出了一种可以有效减少网络参数量的方法,即非对称分解,非对称分解将nxn卷积分解为1xn和nx1的级联,top-1精度达到788,我做到了。InceptionV4将ResNet[5]中使用的残差结构集成到Inception模块中,显着提高了训练速度并实现了8010的top-1精度。


图2Inception模块


在网络深度和广度的研究取得巨大进展后,一些研究人员开始考虑通过复用网络特征来提高网络的分类效果,代表性的例子是2017年CVPR论文DenseNet[9]。ResNet[5]证明了ResidualShortConnection可以有效解决梯度衰减和网络退化题,如图3所示,DenseNet利用这一思想在所有层之间使用ShortConnection。第N-1层即第N层的特征在第N层进行融合,同时将第N层的特征提供给接下来的L-N层进行特征融合。特征重用不仅可以防止重复提取无效特征,从而提高网络的分类精度,而且可以有效减少网络参数的数量。在ImageNet[2]数据集上,DenseNet[9]的top-1准确率达到了792。


至此,与人工设计网络结构相关的工作开始进入启蒙时代,同时,2018年,GoogleBrain研究人员提出了神经网络结构搜索。从此,神经网络设计进入了自动化时代。由于NAS需要大量的计算资源,早期的NAS从CIFAR-10等小型数据集中检索基本的卷积结构单元,然后将其“迁移”到ImageNet等大型数据集[2]。如图4所示,网络搜索过程由RNN网络控制,基本卷积结构单元接收“隐藏状态”列表中的前两个状态hi和hi-1的输出,或者是“隐藏状态”列表中的两个状态的输出。列表,然后在图5中选择两个指示的操作,对选定的两个状态进行操作,最后使用加法或嵌套融合方法将它们融合并继续添加新的基本卷积结构单元,直到基本卷积结构单元的数量为达到了。所以我反复添加。使用基线N2网络搜索算法,在ImageNet[2]数据集上发现的NASNet[10]的top-1准确率达到827,达到并超越了手动设计的网络结构。


NASNet[10]开启了神经网络搜索时代,实现了网络结构设计的自动化,但它也有明显的缺点。NASNet[10]的搜索空间仍然是人为设定的,是一种基于给定搜索空间的网络结构搜索算法。针对这些题,FAIR何凯明团队在2020年提出了一种设计搜索空间的方法。在RegNet[12]论文中,网络结构搜索空间也被用作网络结构设计的一部分。如图6所示,通过不断优化网络搜索空间,我们同时获得最优搜索空间和搜索空间内的网络结构。


2020年,Google将NLP领域使用的Transformer引入视觉领域,提出了ViT[13],它将图像划分为多个相同分辨率的子块,并将每个子块处理为NLP中的字符。场地。通过引入Transformer的self-attention机制,网络的分类效果大大提升,ImageNet[2]数据集的top-one准确率达到8855。


图3密集网络


图4RNN控制器


图5NASNet基本卷积结构单元


图6搜索空间


2基于深度学习的详细图像分类


过去十年,深度学习在图像分类方面取得了长足的进步,但ImageNet[2]等常见图像分类数据集的类别粒度仍然较低。例如,在“狗”类别下,您还可以细分为拉布拉多犬、金毛寻回犬、边境牧羊犬等子类别。粗分类越来越不能满足实际生产生活的需求,学术界和工业界都渴望深度学习在细分类任务中发挥重要作用。与粗分类不同,细粒度分类更关注对象细节之间的差异,要求模型更加关注一些细节,因此学术界提出了“注意力”机制。


近年来,注意力机制在细粒度分类领域被广泛引入,出现了SE[14]、GE[15]、CBAM[16]和SK[17]等注意力模块。融入各种网络结构中,有效提高分类效果。


SE模块提出的比较早,是Momenta在2017年提出的。由SE模块构建的SENet成为2017年上一代ImageNet[2]分类竞赛的冠军网络。卷积神经网络同时融合空间信息和通道信息,SE模块更侧重于通道信息融合。如图7所示,我们首先对FeatureMapU进行Squeeze操作以获得通道描述符,通道描述符主要用于描述每个通道的响应分布。然后,对描述符进行激励操作,得到每个通道的权重向量,并利用这个权重向量为FeatureMap中的每个通道分配权重,增强权重较大的通道,抑制权重较小的通道。实现通道注意力机制。


Momenta利用SE[14]模块实现了通道注意力机制,然后在2018年提出了空间注意力模块GE[15]。如图8所示,GE[15]使用自定义的Gather和Excite模块来实现空间感受野区域的注意力机制。


2018年,出现了另一个同时融合通道注意力和空间注意力的注意力模块,即CBAM[16]。如图9所示,对于每个特征图,CBAM模块不断提取通道和空间注意力信息,并分别与相应的特征图进行加权,以同时实现通道和空间注意力。


在依次引入通道注意力和空间注意力之后,SK[17]模块将多尺度特征引入注意力机制,这是计算机视觉领域常用的方法。如图10所示,SK模块首先使用两个不同大小的卷积核处理FeatureMap,然后将结果相加并通过一系列操作获得每个通道的权重a和b。使用a和b。为每个特征图分配权重后,我们得到最终的特征图。


图7SE模块


图8GE模块


图9CBAM模块


图10SK模块


3基于深度学习的详细图像分类算法


申请参加CVPR竞赛


CVPR2022于6月19日在美国召开。CVPR是全三大计算机视觉会议之一,被誉为计算机视觉领域的“奥斯卡”。汽车之家团队在Kaggle会议研讨会之一的CVPR2022高粱-100品种鉴定-FGVC9挑战赛中获得第二名,取得了公司历史上的里程碑式成就。


细粒度图像分类一直是计算机视觉领域的研究热点。最大的困难在于,细粒度标注图像中类间距离较小,类内距离较大,难以区分。有些图像类别是人眼可见的,例如本次FGVC9竞赛、高粱品种鉴定和植物标本鉴定竞赛的数据,需要很强的专业知识才能确定图像属于哪一类。如图11所示,两个圆内相同颜色样本之间的距离称为类内距离,不同颜色样本之间的距离称为类间距。


图11类内距离和类差距


本次比赛主要采用RegNetY-160GF作为骨干网络,高分辨率图像对准确率的提升起到了很大的作用,将图像分辨率从512提高到960,在私人列表中准确率提高到了841。919.因此,我们认为高分辨率图像对于提高细粒度分类结果有很大帮助。


如前所述,引入注意力机制可以显着提高细粒度图像分类模型的准确性。除了主干网络RegNetY-160GF的SE[14]模块之外,还有一种新型的注意力区域剪枝策略。注意区域裁剪是细粒度图像分类领域常用的方法,如图12所示,SCDA[18]使用最大连通域方法裁剪注意区域,以确定不相关区域对模型训练的影响。避免产生影响。因此模型更加关注关注区域。当注意力区域清晰时,最大连接域方法会产生更好的处理结果,如图12中的鸟,但很难应用于Sorghum-100数据集。如图13所示,S


除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。