全国免费电话:
Q1015831000

公司新闻

恒达平台是正规的吗_CVPR 提前看:视觉知识的最

机械之心剖析师网络

作者:仵冀颖

编辑:Joni Zhong

2020 年 CVPR 将于 6 月 13 日至 19 日在西雅图举行。今年的 CVPR 有 6656 篇有用投稿,最终任命的文章为 1470 篇,接收率为 22%。作为盘算机视觉三大顶会之一,CVPR 今年的论文偏向依然为目的检测、目的跟踪、图像支解、人脸识别、姿态估量等等。CVPR 是老牌的视觉、图像和模式识别等研究偏向的顶会,本篇提前看中,让我们在人工智能、深度学习热潮的打击下,一起关注一下视觉知识的最新研究进展。

详细的,我们关注下面四篇文章:

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

2、ClusterFit: Improving Generalization of Visual Representations

3、Learning Representations by Predicting Bags of Visual Words

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

论文链接:https://arxiv.org/abs/1912.05699

这篇文章关注的是模子面临匹敌样本时的鲁棒性的问题。在源义务和目的义务使用模子架构相同的情形,对扰动具有鲁棒性的权重在差别义务间也具有鲁棒性。本文作者选择了输入梯度(input gradient)作为差别义务间迁徙的前言,从而实现义务不可知和体系结构不可知的鲁棒性迁徙,称为「输入梯度匹敌匹配(input gradient adversarial matching (IGAM))」。之所以选择输入梯度,是因为鲁棒的匹敌训练(Adversarial Training, AT)模子获得显著的输入梯度,而非鲁棒模子则给出有噪声的输入梯度,如图 1。每个像素的输入梯度界说了细小的转变若何影响模子的输出,而且可以大略估量出每个像素对于展望的主要性。

IGAM 的焦点头脑是:训练一个具有匹敌性目的的学生模子(student model)以愚弄鉴别器,使得鉴别器将学生模子的输入梯度视为来自一个鲁棒的西席模子(teacher model)的输入梯度。为了在差别的义务之间迁徙,西席模子的逻辑层首先对目的义务举行简朴微调,随后,在极大极小博弈中,冻结西席模子的权重,使用单独的鉴别器训练学生模子,以便学生模子和西席模子的输入梯度具有语义相似性。IGAM 的训练包罗两个阶段:1)在目的义务上微调鲁棒的西席模子;2)在学生模子训练历程中,匹敌正则化输入梯度。

图 1. CIFAR-10 图像非鲁棒模子(中央)和鲁棒模子(右)的输入梯度

首先,凭据目的义务微调西席模子 f_t 的权重。将模子权重参数化为Ψ,微调阶段使用交织熵损失训练模子:

我们使用微调的效果替换模子中的最终逻辑层,除逻辑层外冻结西席模子 f_t 的所有权重。将逻辑层前的所有被冻结权重示意为Ψ.^ ,替换后新的逻辑层示意为Ψ_logit,获得西席模子的微调目的函数为:

在对目的义务的逻辑层举行微调之后,西席模子的所有参数(Ψ)都牢固稳定。

其次,下一步我们在学生模子的训练历程中举行输入梯度匹配:在目的义务数据集 D_target 上表征学生模子 f_s 的分类交织熵损失为:

通过梯度反向流传,获得学生模子 f_s 的输入梯度为:

响应地,西席模子 f_t 的输入梯度为:

参考 GAN(包罗天生器和鉴别器模子的框架)的头脑,为了使学生模子的输入梯度与西席模子的输入梯度相似,界说匹敌正则化损失函数如下:

同时思量在目的义务数据集 D_target 上表征学生模子 f_s 的分类交织熵损失函数 L_θ,xent,可以通过快速梯度下降(SGD)来优化,以近似获得如下的最佳参数:

鉴别器通过最大化匹敌损失项来学习正确地区分输入梯度。将 f_disc 参数化示意为φ,同样使用 SGD 训练鉴别器:

此外,本文还引入 L_diff 来责罚从统一输入图像天生的 Js 和 Jt 之间的 L2-norm 差异:

最终获得完整的学生模子 f_s 的训练目的函数为:

IGAM 的完整训练历程如图 2:

图 2. 输入梯度匹敌匹配的训练历程

以及,代码如下:

最后,作者讨论了在差别维度的义务之间迁徙的问题。为了沿与输入梯度相反偏向的梯度流传损失,使用仿射函数来调整目的义务图像以匹配西席模子输入层的维度:

随后,可以盘算西席模子的交织熵损失如下:

由于仿射函数是延续可微的,可以通过反推获得输入梯度:

图 3 给出了令图像与西席模子输入维度的匹配转换的三个示例,划分为图像缩放、图像切割和图像填充。

图 3. 令图像与西席模子输入维度的匹配转换的示例

实验剖析

本文在由 MNIST、CIFAR-10、CIFAR-100 和 Tiny-ImageNet 组成的源-目的数据对上完成了 IGAM 实验。图 4 给出了差别数据集中的输入梯度,与尺度的模子相比,IGAM 模子的输入梯度噪声较少。表 1、表 2 以及图 5 划分给出了差别数据库中的实验效果,这些效果表明 IGAM 可以在差别的义务之间,甚至在差别的模子结构之间通报鲁棒性。

图 4. 差别模子的输入梯度

表 1. 迁徙无噪和匹敌性 CIFAR-10 测试样本的准确度

表 2. CIFAR-100 测试样本的准确度

图 5. Tiny-ImageNet 测试样本的准确度

小结

这篇文章讨论的是在图像处置的源义务和目的义务的模子架构相同的情形下,寻找在差别义务间具有鲁棒性的视觉相关的指标。本文作者使用的是输入梯度,并通过大量实验验证了其有用性。类似的,下一步研究可以探讨其它权衡输入梯度语义的指标,以及探讨引入其它指标或特征来实现匹敌鲁棒性。

2、ClusterFit: Improving Generalization of Visual Representations

论文链接:https://arxiv.org/abs/1912.03330

通过引入自由标注,弱自监视预训练方式具有优越的适应性。然则,弱自监视预训练方式需要预先迫近一个署理目的函数,以及,假定这个署理目的函数与随后的转移主义务一致,通过优化该署理目的函数就能够天生合适的预先训练的视觉示意。这一假设在充实监视的预训练(fully-supervised pre-training)中基本能够保证建立,然则对于弱自监视学习来说,这很难保证。这篇文章探讨的问题是「有没有一种方式可以解决弱自监视的预训练阶段对署理目的函数过分拟合问题?」作者的思绪是:通过对署理目的学习到的特征空间举行平滑处置(smooth)来解决这一问题。本文提出一种简朴的框架 ClusterFit (CF),该框架与经典的弱自监视预训练(迁徙学习)之间的关系见图 1。一个经典的迁徙学习框架包罗两个阶段:预训练 迁徙学习(即图 1 的上半部门),而 ClusterFit 相当于在这些阶段之间增添了一个步骤,即图 1 下半部门虚线引出的内容。在图 1 中,D_cf 示意 CF 框架引入的数据库,D_pre 是经典预训练数据库,D_tar 是测试目的数据库,N_pre 示意经典预训练网络,N_cf 示意 CF 框架引入的网络。

图 1. 完整的 ClusterFit(CF)流程

CF 框架先容

CF 主要包罗两步骤的事情,第一步,Cluster,给定一个使用署理目的函数和新数据集举行训练的网络,行使学习到的特征空间对该数据集举行聚类。第二步,Fit,使用聚类作为伪标签在这个新数据集上从头开始训练一个新网络,见图 2。

图 2. ClusterFit (CF) 结构

首先获得一个在数据库 Dpre 和标签 Lpre 中预训练的神经网络 Npre。使用 Npre 的预处置层从另一个数据库 Dcf 的数据中提取特征。接下来,使用 k-means 将这些特征群集到 K 组中,并给这些聚类分配新分类「标签」(Lcf)。最后,基于 Dcf 行使交织熵损失函数获得另一个网络 Ncf。

作者讨论了在受控设置下从「署理目的函数」训练学习到的特征的泛化水平。作者设置了这样一个实验场景:在 ImageNet-1K 数据库中,人为添加合成的标签噪声,目的是使得署理目的函数的预训练与下游的训练义务只管差别。图 3 给出了差别的标签噪声 p 取值的 N_pre(即 CF 之前)和 N_cf(即 CF 之后)的迁徙学习性能。在训练前存在大量的标签噪声的情形下,CF 仍然能够学习到可迁徙的有用特征,对于更细粒度的目的义务,如 ImageNet-9K,CF 甚至可以改善有监视的 ResNet-50 模子(p=0)

图 3. 控制实验

实验剖析

在 11 个公然的、具有挑战性的图像和视频基准数据集上,ClusterFit 显示出显著的性能提升,详细见表 1。ClusterFit(CF)适用于种种差别的预训练方式、模式和结构。

表 1. 实验效果汇总

在 CF 整体框架中,Npre、Ncf 的巨细、预训练标签空间的颗粒度等,都市影响 CF 的效果。如图 4 的实验效果,在 Npre 容量较大的情形下,差别 K 取值能够保证有 2%―3% 的连续改善。这表明,具有较大容量的 Npre 能够天生更厚实的聚类视觉特征,从而提高迁徙学习性能。图 5 中,迁徙学习的性能随着 Dpre 预训练标签数目的增添 log-线性的增进。增添标签的数目是异常容易的,作者以为,该实验效果证实了 CF 在设计一个通用的预训练标签空间义务中的实用性。

图 4. Npre、Ncf 的选择影响

图 5. Npre 中标签数目的影响

小结

CF 是一个可伸缩的、通用的框架,对模子架构、数据模式和监视学习的形式没有任何限制。其中,聚类(Clustering)的处置可以看作是一种有用捕捉特征空间中的视觉稳定性的有损压缩方案。在此基础上,展望聚类的标签使「重新学习」的网络能够学习到对原始预训练目的不太敏感的特征,从而使这些特征更易于「迁徙」。作者提出了几个下一步思量的研究偏向,包罗:引入域知识、连系差别类型的预训练模子完成多义务学习、在聚类历程中引入证据积累(evidence accumulation)方式等。

3、Learning Representations by Predicting Bags of Visual Words

论文链接:https://arxiv.org/abs/2002.12247

自监视表征学习使用图像中的可用信息(例如,展望两个图像块的相对位置)界说的无标注预文本(unlabeled pretext)训练卷积神经网络(convnet),通过这样一个基于预文本的预训练,使得 convnet 能够学习到对一些视觉义务有用的示意,例如图像分类或工具检测等义务所需的示意。

一个值得探讨的问题是,事实哪种自监视是有用的?

类似的,在自然语言处置(NLP)中,自监视方式在学习语言示意方面获得了伟大的乐成,如 BERT 展望句子中的缺失单词等。NLP 与盘算机视觉的差别之处在于:(1)与图像像素相比,文字能够表征更多的高级语义观点,(2)文字是在离散空间中界说的,而图像是在延续空间中界说的,这就导致对图像像素的小扰动虽然不会改变图像描绘的内容,然则却会显著的影响图像重修义务的效果。

只管二者之间存在很大的差别,本文作者实验借鉴 NLP 的头脑,通过对离散视觉观点举行麋集形貌的方式,在图像处置义务中构建离散目的函数。首先接纳一种自监视方式(如旋转展望法)训练一个初始 convnet,学习捕捉中图像特征的对照抽象的特征示意。其次,使用基于 k-均值的词汇库对基于 convnet 的特征映射举行麋集量化,从而获得基于离散编码(即 k-均值聚类分配)的空间麋集图像形貌,也就是所谓视觉单词(visual words)。经由这次离散化的图像处置后,使我们借鉴 NLP 的自监视学习变为可能,例如,可以很好地训练一个类似于 BERT 的体系结构,该体系结构作为图像中的图像块的一个子集输入,展望缺失图像块的视觉单词。本文作者从盘算机视觉中所谓的词袋(Bag-of-Words,BoW)模子中获得灵感,提出将其作为一个自监视的义务训练一个 convnet 来展望图像视觉单词的直方图(也称为 BoW 示意)。完整的基于视觉词袋展望的自监视示意学习流程见图 1。

图 1. 视觉词袋展望学习示意

给定一个训练图像 x,第一步,使用预先训练的 convnet 建立一个基于空间麋集视觉词的形貌 q(x)。行使 k-均值算法将 K 个聚类应用于从数据集中提取的一组特征图,通过优化以下目的,学习视觉词汇的嵌入特征:

令Φ^(x) 示意输入图像 x 的特征图,Φ^u(x) 示意对应第 u 个位置的特征向量,对于每个位置 u,将响应的特征向量Φ^u(x) 赋给其最近的(以平方欧式距离为单元)视觉词嵌入 q^u(x):

第二步,建立图像 x 的离散示意 q(x) 的 BoW 示意:y(x)。可以接纳两种示意形式:

y(x) 是一个 k 维向量,其中第 k 个元素 y_k(x) 编码第 k 个视觉词在图像 x 中泛起的次数。效果 y(x) 可以被看作是图像 x 的第 K 个视觉词的软分类标签。K 值可能较大,因此 BoW 示意 y(x) 是相当希罕的。

第三步,基于提取的 BoW 示意,执行自监视义务:给定图像 x,使用扰动算子 g(・) 天生扰动图像 x =g(x),然后训练模子基于扰动图像 x 「展望/重修」原始图像 x 的 BoW 示意。本文使用的扰动算子 g(・):包罗(1)颜色发抖(即图像的亮度、对比度、饱和度和色调的随机转变);(2)以概率 p 将图像转换为灰度;(3)随机图像裁剪;(4)比例或纵横比失真;(5)水平翻转。

界说一个展望层Ω(・),该展望层以Φ(x )作为输入,输出 BoW 中的 K 个视觉词的 K 维 softmax 漫衍。该展望层通过 liner-plus-softmax 层实现:

其中,W = [w_1,・ ・ ・ ,w_K] 是线性层的 K 个 c 维权重向量(每个视觉词一个)。为了学习 convnet 模子,最小化展望的 softmax 漫衍Ω(Φ(x ))和 BoW 漫衍 y(x)之间的期望交织熵损失:

其中,loss(α, β) 为交织熵损失。

训练前随机初始化Φ(・),之后,在自监视学习历程中每次使用先前训练的模子Φ (・)天生 BoW 示意。作者示意,第一次迭代后获得的模子已经具有较好的效果,因此,一样平常只需要执行一至两次迭代就可以获得最终效果。

实验剖析

本文在 CIFAR-100、Mini-ImageNet、ImageNet、Places205、VOC07 分类和 V0C07 12 检测数据库中上评估了所提出的方式(BoWNet)。

表 1. CIFAR-100 线性分类及少样本测试效果,其中,Φ (・)接纳 WRN-28-10 架构实现

表 2. Mini-ImageNet-100 线性分类及少样本测试效果,其中,Φ (・)接纳 WRN-28-10 架构实现

表 1 和表 2 给出了 CIFAR-100 和 Mini-ImageNet 库上的效果。通过对照 BoWNet 和 RotNet(用于构建 BoWNet)的性能,实验效果显示 BoWNet 将所有的评估指标至少提高了 10 个百分点,迭代使用 BoWNet(BoWNet×2 和 BoWNet×3)能够进一步提高分类义务的准确度(除了 one-shot 的情形)。此外,在表 1 给出的 CIFAR100 线性分类义务的效果数据中,BoWNet 性能大大优于最近提出的 AMDIM。在表 2 给出的 Mini-ImageNet 库的分类义务效果数据中,BoWNet 的性能与有监视 CC 模子的性能异常靠近。

表 3. ResNet-50 线性支持向量机的 VOC07 图像分类效果

在 VOC07 库中使用 Goyal 等人提供的公然代码对自监视方式举行基准测试,在冻结学习示意的基础上训练线性 SVM,其中,使用 VOC07 训练 验证数据子集举行训练,使用 VOC07 测试子集举行测试。实验中思量了第三(conv4)和第四(conv5)残余分块的特征,效果见表 3。表 3 中的实验数据显示,BoWNet 优于所有先前的方式。

表 4. ImageNet 和 Places205 中线性分类准确度(使用 ResNet-50 结构)

使用基于冻结特征示意的线性分类器对 1000-way ImageNet 和 205-way Places205 的分类义务举行评估。表 4 中的实验数据显示,BoWNet 优于所有先前的自监视方式。此外,在 Places205 中,使用本文方式训练的 ImageNet 的 BoWNet 示意和 ImageNet 训练获得的有监视示意之间的位置的精度差距仅为 0.9 points。作者以为,这表明了对于「训练阶段看不到的」Places205 的种别,使用本文提出的方式获得的自监视示意与有监视方式获得的示意具有险些相同的泛化能力。

表 5. V0C07 12 的目的检测义务效果(使用快速 R-CNN 微调结构)

将 BoWNet conv4 和 BoWNet conv5 与经典的和最新的自监视方式举行了对照,效果在表 5 中。有趣的是,在作者给出的这个实验效果中,BoWNet 的性能优于有监视的 ImageNet 预训练模子,后者在与 BoWNet 相同的条件下举行微调。基于这个实验效果,作者以为,本文提出的自监视示意比有监视示意更适用于 VOC 检测义务。

小结

本文提出了一种新的示意学习方式 BoWNet,该方式以视觉词汇的空间麋集形貌为目的举行自监视训练。由本文的实验和剖析可知,BoWNet 是在无标签监视的情形下学习的特征上训练的,但它获得了很好的效果,甚至优于了初始模子。这一发现以及特征空间的离散化处置(酿成视觉词汇)为后续的研究提供了新的思绪。

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

论文链接:

https://arxiv.org/pdf/1912.13200

加法、减法、乘法和除法是数学中最基本的四种运算。众所周知,与加法相比,乘法盘算复杂度高、盘算速率慢。在深度神经网络中,器量输入特征与卷积滤波器的相似性是通过盘算大量的浮点数相乘来实现的。在这篇文章中,作者提出了一种加法器网络(AdderNet),在放弃卷积运算的同时最大限度地行使加法,即,给定一系列小模板作为「神经网络中的滤波器」,使用 L1-norm 距离盘算输入信号和模板之间的差异。图 1 中对比了经典 CNN 与本文提出的 AdderNet 提取特征的可视化展示。CNN 是通过角度来区分差别种别的特征,而使用 L1-norm 距离的 AdderNet 则是通过向差别种别的类中央群集来区划分差别种别的特征。由于减法可以通过其补码通过加法实现,因此 L1-norm 距离可以是一种硬件友好的仅具有加法的器量,作者以为,它可以成为组织神经网络的卷积的有用替换方式。

图 1. AdderNets 和 CNNs 中特征的可视化

模子先容

给定一个深度神经网络的中央层,思量一个滤波器 F,其中核巨细为 d,输入通道为 c_in,输出通道为 c_out。输入特征界说为 X,令 H 和 W 划分为特征的高度和宽度,输出特征 Y 示意滤波器和输入特征之间的相似性,获得公式:

其中,S(・,・)示意预界说的相似性器量。若是使用互相关性作为距离器量,即 S(x,y)=x×y,则上式为卷积运算。此外,另有许多其他的器量能够用来丈量滤波器 F 和输入特征 X 之间的距离。然而,这些器量中的大多数涉及乘法运算,具有较高的盘算成本。因此,本文作者使用加法丈量距离。L1-norm 距离盘算的是两个矢量示意的绝对差之和,它不包罗乘法运算。此时,相似性盘算公式为:

经典 CNN 中,作为输入特征映射中的值的加权和,卷积滤波器的输出可以是正的或负的,然则加法器滤波器的输出总是负的。因此,引入批量归一化将加法器的输出层规范化到一个适当的范围内,然后在所提出的加法器中使用经典 CNN 中使用的所有激活函数。只管在批量规范化层中涉及乘法运算,但其盘算成本显著低于卷积层,可以省略。

模子训练

神经网络行使 BP 反向流传盘算滤波器的梯度,行使随机梯度下降更新参数。在经典 CNN 中,输出特征 Y 相对于滤波器 F 的偏导数盘算为:

其中,i∈[m,m d],j∈[n,n d]。在 AdderNet 中,输出特征 Y 相对于滤波器 F 的偏导数盘算为:

其中 sgn(・)示意符号函数,梯度值只能取 1、0 或-1。然而,signSGD 险些不接受最陡下降的偏向,使用 signSGD 对大量参数的神经网络举行优化是不合适的。本文使用下式优化:

除了滤波器 F 的梯度外,输入特征 X 的梯度对于参数的更新也很主要。因此,本文也使用上式盘算 X 的梯度。为了防止盘算 X 梯度时泛起梯度爆炸的问题,将 X 的梯度限制在 [-1,1] 区间中。输出特征 Y 相对于输入特征 X 的偏导数盘算为:

其中,HT(・)示意 HardTanh 函数:

自适应学习速率尺度

经典 CNN 中,假设权值和输入特征是自力的,而且在正态漫衍下漫衍一致,则输出方差可以大略估量为:

而对于 AdderNet,输出方差可以近似为:

其中 F 和 X 遵守正态漫衍。由此可见,与经典 CNN 较小的 Var 值差别,AdderNet 中的加法运算会导致加法器的输出方差数值较大。本文提出了一种自适应学习方式,即在 AdderNet 的差别层中接纳自适应的学习效率,详细的,AdderNet 中每层 (l) 的更新为:

其中,γ为整个神经网络的全局学习率, L(F_l) 是滤波器的梯度,α_l 为响应的局部学习率,详细的:

其中,k 示意 F_l 中平均 L_2 范数的元素个数,η是控制加法器滤波器学习速率的超参数。

通过自适应学习速率调整,可以用险些相同的步骤更新差别层的加法器滤波器。算法 1 给出 AdderNet 的训练历程。

实验效果

AdderNet 在大规模神经网络和数据集上取得了异常好的显示,包罗 MNIST,CIFAR,ImageNet。在 MNIST 中的分类效果如表 1。与 CNNs 相比,AdderNet 在没有举行乘法盘算的前提下,获得了险些相同的效果。

表 1. CIFAR-10 和 CIFAR-100 数据集上的分类效果

表 2.ImageNet 数据集上的分类效果

在 ImageNet 中的分类效果如表 2。与 CNNs 相比,AdderNet 在没有举行乘法盘算的前提下,Top-1 和 Top-5 的效果与 CNN 靠近。而 BNN 只管能够实现高盘算速率和高压缩比,然则分类效果较差。

图 2. MNIST 数据集上 LeNet-5-BN 第一层过滤器的可视化。这两种方式都能为图像分类提取有用的特征

图 2 给出的是 MNIST 数据集上的可视化效果。只管 AdderNet 和 CNN 使用差别的距离器量,然则 AdderNet 的滤波器仍然能够提取与卷积滤波器所提取的相似的特征。可视化实验进一步证实,AdderNet 能有用地从输入图像和特征中提取有用信息。

小结

本文探讨的是在深度神经网络中使用加法盘算替换乘法盘算的可能性,给出的实验效果证实了 AdderNet 能在不使用乘法盘算的前提下,获得与经典 CNN 相当的分类效果,此外所提取特征的可视化也显示出 AdderNet 所提取的特征与经典 CNN 类似。不外,在这篇文章中,作者并没有给出关于盘算速率、时长、消耗的定量剖析效果。作者提出,下一步的研究设计是剖析 AdderNet 的量化效果,以实现更高的速率和更低的能量消耗。此外,将探讨 AdderNet 的通用性,将其应用于检测和支解义务中。

作者先容:仵冀颖,工学博士,结业于北京交通大学,曾划分于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究事情。主要研究偏向为模式识别、盘算机视觉,兴趣科研,希望能保持学习、不断进步。

关于机械之心全球剖析师网络 Synced Global Analyst Network

机械之心全球剖析师网络是由机械之心提议的全球性人工智能专业知识共享网络。在已往的四年里,已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、营业专家,行使自己的学业事情之余的闲暇时间,通过线上分享、专栏解读、知识库构建、讲述公布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思绪、工程履历及行业洞察等专业知识,并从中获得了自身的能力生长、履历积累及职业生长。

感兴趣加入机械之心全球剖析师网络?点击阅读原文,提交申请。

Copyright © 2014-2019 恒达总代理招商-恒达登录平台 版权所有   

地址: 电话:Q1015831000 传真:

手机:Q1015831000 联系人:恒达平台招商主管