在线观看

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

发布日期:2021-09-30 19:12    点击次数:121

  

视觉现在的检测体系旨在在图像中识别和定位一切预定义类别的现在的。检测到的现在的清淡由一组边界框和有关的类标签来描述。鉴于义务的难度,大无数现有手段都是经过精心设计和高度定制的,在架议和亏损函数的选择方面用到了大量的先验知识。

图灵奖得主 Geoffrey Hinton 和谷歌钻研院的几位钻研者近日挑出了一个用于现在的检测的浅易通用框架 Pix2Seq。与显式集成有关义务先验知识的现有手段分别,该框架浅易地将现在的检测转换为以不益看察到的像素输入为条件的说话建模义务。其中,将对现在的的描述(例如边界框和类标签)外示为离散 token 的序列,并且该钻研还训练神经网络来感知图像并生成所需的序列。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

论文地址:https://arxiv.org/abs/2109.10852

该手段主要基于一栽直觉,即倘若神经网络清新现在的的位置和内容,那么就只必要教它如何读取现在的。除了行使特定于义务的数据添强之外,该手段对义务做出了最少的倘若。但在 COCO 数据集上的测试效果外明,新手段十足能够媲美高度专科化和优化过的检测算法。

Pix2Seq 框架 Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

该钻研挑出的 Pix2Seq 框架将现在的检测行为说话建模义务,其中以像素输入为条件。上图所描述的 Pix2Seq 架议和学习过程有四个主要构成片面,如下图 2 所示,包括:

图像添强:在训练计算机视觉模型中很常见,该钻研行使图像添强来雄厚一组固定的训练样例(例如,随机缩放和剪裁)。 序列构建和添强:由于图像的现在的注解清淡外征为一组边界框和类标签,该钻研将它们转换为离散 token 的序列。 架构:该钻研行使编码器 - 解码器的模型架构,其中编码器感知像素输入,解码器生成现在的序列(一次一个 token)。 现在的 / 亏损函数:该模型经过训练以最大化 token 的对数似然。 Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR 基于现在的描述的序列构建

在常见的现在的检测数据荟萃,例如 Pascal VOC、COCO 等,图像中往往具有数目纷歧的现在的,这些现在的被外征一组边界框和类标签,Pix2Seq 将它们外示为离散 token 的序列。

类标签自然地被外示为离散 token,但边界框不是。边界框由其两个角点(即左上角和右下角)或其中央点添上高度和宽度确定。该钻研挑出离散化用于指定角点的 x、y 坐标的不息数字。详细来说,一个现在的被外征为一个由 5 个离散的 token 构成的序列,即 [y_min, x_min, y_max, x_max, c],其中每个不息的角坐标被均匀地离散为[1, n_bins] 之间的一个整数,c 为类索引。该钻研对一切 token 行使共享词外,所以词汇量大幼等于 bin 的数目 + 类(class)的数目。边界框的这栽量化方案使得在实现高精度的同时仅行使较幼的词汇量。例如,一张 600×600 的图像只必要 600 个 bin 即可实现零量化偏差。这比具有 32K 或更大词汇量的当代说话模型幼得众。分别级别的量化对边界框的影响如下图 3 所示。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

鉴于每个现在的的描述外达为一个短的离散序列,接下来必要将众个现在的的描述序列化,以构建一个给定图像的单一序列。由于现在的的挨次对于检测义务自己并不主要,所以钻研者行使了一栽随机排序策略(每次表现图像时现在的的挨次是随机化的)。此外,他们也追求了其他确定性排序策略,但是倘若随机排序策略和任何确定性排序是相通有效的,给定一个可用的神经网络和自回归模型(在这边,网络能够学习按照不益看察到的现在的来为盈余现在的的分布建模)。

末了,由于分别的图像清淡有分别的现在的数目,所生成的序列会有分别的长度。为了外示序列的终结,钻研者相符并了一个 EOS token。

下图 4 展现了行使分别排序策略的序列构建过程。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR 架构、现在的和推理

此处把从现在的描述构建的序列行为一栽「方言」来处理,转向在说话建模中走之有效的通用体系架议和现在的函数。

这边行使了一栽编解码器架构。编码器能够是通用的感知像素图像编码器,并将它们编码成暗藏的外征形势,比如 ConvNet (LeCun et al. ,1989; Krizhevsky et al. ,2012; He et al. ,2016) ,Transformer (Vaswani et al. ,2017; Dosovitskiy et al. ,2020) ,或者它们的组相符(Carion et al. ,2020)。

在生成上,钻研者行使了普及用于当代说话建模 (Radford 等人,2018; Raffel 等人,2019) 的 Transformer 解码器。它每次生成一个 token,取决于前线的 token 和编码的图像外征。这清除了现在的检测器组织中的复杂性和自定义,例如边界框挑名(bounding box proposal)和边界框回归(bounding box regression),由于 token 是由一个带 softmax 的单词外生成的。

与说话建模相通,给定一个图像和前线的 token,Pix2Seq 被训练用来展望 token,其具有最大似然亏损,即

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

其中 x 是给定的图像,y 和 y^~ 别离是有关的输入序列和现在的序列,l 是现在的序列长度。在标准说话建模中,y 和 y^~ 是相通的。此外,wj 是序列中为 j-th token 预先分配的权重。吾们竖立 wj = 1,something j,但是能够按照 token 的类型 (如坐标 vs 类 token) 或响答现在的的大幼来权重 token。

在推理过程中,钻研者从模型似然中进走了 token 采样,即

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

。也能够议决行使最大似然性 (arg max 采样) 的 token,或者行使其他随机采样技术来实现。钻研者发现行使核采样 (Holtzman et al., 2019) 比 arg max 采样 (附录 b) 更能挑高召回率。在生成 EOS token 时,序列终结。一旦序列生成,它直接挑取和逆量化了现在的描述(即获得展望边界框和类标签)。

序列添强

EOS token 会批准模型决定何时终止,但在实践中,发现模型往往在没展望一切现在的的情况下终止。这能够是由于:

注解噪音(例如,注解者异国标识一切的现在的) ; 识别或本地化某些现在的时的不确定性。由于召回率和实在率对于现在的检测来说都很主要,一个模型倘若异国很益的召回率就不能够获得很益的团体性能(例如,平均实在率)。

获得更高召回率的一个技巧是议决人造地降矮其能够性来延宕 EOS token 的采样。然而,这往往会导致噪声和重复展望。

序列添强引入的修改如下图 5 所示,详细情况如下:

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

钻研者最先议决以下两栽手段创建相符成噪声现在的来增补输入序列:

向现有的地面真值现在的增补噪声(例如,随机缩放或移动它们的围困盒) ; 生成十足随机的边框(带有随机有关的类标签)。值得仔细的是,其中一些噪声现在的能够与一些 ground-truth 现在的相通或重叠,模拟噪声和重复展望,如下图 6 所示。 Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

转折推理。行使序列添强,钻研者能够大幅度地延宕 EOS token,升迁召回率,并且不会增补噪声和重复展望的频率,所以,他们令模型展望到最大长度,产生一个固定大幼的现在的列外。当从生成的序列中挑取边界框和类标签时,钻研者用在一切实在类标签中具有最高似然的实在类标签替换噪声类标签。他们还行使选定类标签的似然行为现在的的排名分数。

实验效果

钻研者主要与两个被普及认可的基线手段进走比较,别离是 Facebook AI 于 2020 年挑出的 DETR 和更早期的 Faster R-CNN。

效果如下外 1 所示,Pix2Seq 实现了媲美这两个基线手段的性能,其中在幼型和中型现在的上的外现与 R-CNN 相等,但在大型现在的上外现更益。与 DETR 相比,Pix2Seq 在中型和大型现在的上外现相等或略差,但在幼型现在的上外现清晰更益(4-5 AP)。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR 序列构成的融化实验

下图 7a 追求了坐标量化对性能的影响。在这一融化实验中,钻研者考虑行使了 640 像素的图像。该图外外明量化至 500 或以上 bin 就有余了,500 个 bin(每个 bin 大约 1.3 个像素)时不会引入隐微的近似偏差。原形上,只要 bin 的数目与像素数(沿着图像的最长边)相通众,就不会展现由边界框坐标量化导致的隐微偏差。

训练期间,钻研者还考虑了序列构成中的分别现在的排序策略。这些包括 1)随机、2)区域(即现在的大幼递减)、3)dist2ori(即边界框左上角到原点的距离)、4)类(名称)、5)类+区域(即现在的先按类排序,倘若同类有众个现在的,则按区域排序)、6)类+dist2ori。

下图 7b 展现了平均精度(AP),7c 展现了 top-100 展望的平均召回率(AR)。在精度和召回率这两方面,随机排序均实现了最佳性能。钻研者推想,行使确定性排序,模型能够难以从先前流失现在的的舛讹中恢复过来,而行使随机排序,则能够在之后检索到它们。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR 添强的融化实验

钻研者主要行使的图像添强手段是尺度抖动(scale jittering),所以比较了分别的尺度抖动强度(1:1 外示无尺度抖动)。下图 8a 展现了模型在异国正当尺度抖动时会展现过拟相符(即验证 AP 矮但训练 AP 高)。钻研者展望,兴旺的图像添强在这项钻研中专门有效,这是由于 Pix2Seq 框架对义务做了最幼倘若。

钻研者还探究了「行使和不行使序列添强训练」的模型性能转折。对于未行使序列添强训练的模型,他们在推理过程中调整 EOS token 似然的偏移量,以运走模型做更众展望,从而产生一系列召回率。如下图 8b 所示,在无序列添强时,当 AR 增补时,模型会展现隐微的 AP 降低。行使序列添强时,模型能够避免噪声和重复展望,实现高召回率和高精度。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR 解码器交叉仔细力地图的可视化

在生成一个新的 token 时,基于 Transformer 的解码器在前线的 token 上行使自仔细力,在编码的视觉特征图上行使交叉仔细力。钻研者期待在模型展望新的 token 时可视化交叉仔细力(层和头的平均值)。

下图 9 展现了生成前几个 token 时的交叉仔细力图,能够望到,在展望首个坐标 token(即 y_min)时,仔细力表现出了专门强的众样性,但随后很快荟萃并固定在现在的上。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

钻研者进一步追求了模型「议决坐标关注指定区域」的能力。他们将图像均匀地划分为 N×N 的矩形区域网格,每个区域由边界框的序列坐标制定。然后在读取每个区域的坐标序列之后,他们将解码器的仔细力在视觉特征图上实现可视化。末了,他们打乱图像的像素以清除对现有现在的的作梗,并为了清亮首见清除了 2%的 top 仔细力。

兴味的是,如下图 10 所示,模型益像能够在分别的尺度上关注制定区域。

Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR    

【编辑保举】

面试官:说说你对树的理解?有关的操作有哪些? Netty中央知识总结(含片面源码解析) Chrome 最先测试三位数用户代理,以检查网站兼容性

上一篇:Systemd 首席开发者:Linux 在磁盘添密和认证启动坦然方面存在不能
下一篇:5G为何通俗慢?除了贵,还由于这栽4G套餐的存在