飞鲸投研 > > 贝壳号 > 正文

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

贝壳号 | 发布于2021-06-20

编辑按：本文转载至微信公众号 “新智元”,贝壳投研经授发布

随着注意力机制在自然语言处理和计算机视觉等多个人工智能领域风靡，计算机视觉领域刷榜之争可谓是进入白热化阶段。

近期大量工作刷新现有各项任务SOTA：前脚谷歌刚在图像识别ImageNet上准确度超过90，紧接着微软又在目标检测COCO上AP超过60。

在一篇CVPR 2021 论文中，来自微软的研究者提出多重注意力机制统一目标检测头方法Dynamic Head, 可插拔特性提高多种目标检测框架的性能。

在Transformer骨干和额外数据加持下，COCO单模型测试取得新纪录：60.6 AP。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

论文地址：https://arxiv.org/abs/2106.08322

方法概述

本文首先对现有目标检测头的改进工作进行了总结，发现近期方法主要通过三个不同的角度出发进行目标检测性能的提升：

尺度感知：目标尺度的差异对应了不同尺度的特征，改进不同级的表达能力可以有效提升目标检测器的尺度感知能力；

空间位置：不相似目标形状的不同几何变换对应了特征的不同空间位置，改进不同空间位置的表达能力可以有效提升目标检测器的空间位置感知能力；

多任务：目标表达与任务的多样性对应了不同通道特征，改进不同通道的表达能力可以有效提升目标检测的任务感知能力。

本文提出一种新颖的动态头框架，它采用多注意力机制将不同的目标检测头进行统一。

通过特征层次之间的注意力机制用于尺度感知，空间位置之间的注意力机制用于空间感知，输出通道内的注意力机制用于任务感知，该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

为了达成以上目的，本文对特征金字塔进行重构，将不同层级的特征统一到一个3D张量，并发现在不同维度引入注意力机制可以提高对尺度，空间位置和多任务的感知能力。

因此上述方向可以统一到一个高效注意力学习问题中。本文也是首个尝试采用多注意力机制将三个维度组合构建统一头并最大化其性能的工作。

作者将注意力函数转换为三个序列子注意力函数来解决传统注意力函数在高维度导致计算量激增的问题。

每个注意力函数仅聚焦一个维度：基于SE模块的尺度自注意函数π_L, 基于可变形卷积的空间自注意函数π_S 和基于动态ReLU激活函数的多任务的自注意函数π_C。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

作者将三种自注意函数进行堆叠，形成一个可轻易插拔的模块DyHead，并将其应用于多种目标检测框架中。

实验结果

作者首先分析了的计算效率。当采用6个模块时，模型性能提升达到最大，而计算量提升相比骨干网络可以忽略。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021 作者将DyHead集成到不同检测器进行性能对比，发现所提DyHead可以一致性提升所有主流目标检测器性能：1.2~3.2AP，展示了优异的可插拔扩展性能。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

在与其他目标检测方法的对比中，所提方案以较大的优势超越了流行方案。相比仅采用多尺度寻览的方法，所提方案仅需2x训练即可取得新的SOTA指标 52.3AP。相对于谷歌提出的EfficientDet与SpineNet，所提方法训练时间更少(仅1/20);

当同时采用多尺度训练与测试时，所提方法取得了新的SOTA指标54.0AP，以1.3AP指标优于此前最佳。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021 当引入更优异的Transformer骨干网络、以及通过类似于谷歌自我学习方法生成的额外伪框的ImageNet数据后，所提方案取得了COCO新的记录：60.6 AP，成为首个超过60的单模型方法。

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

飞鲸投研从多维度分析，整理了一份《成长50》的名单，可以关注同名公众号："飞鲸投研"：feijingtouyan，进行领取（点击复制）

Tags：新智元

相关推荐

该文观点仅代表作者本人，飞鲸投研系信息发布平台

/阅读下一篇/

史上最年轻！32岁哥大女教授当选美国反垄断主管机构主席，Big Tech血压飙升

24小时热榜

脱水研报

市值超过五粮液，宁德时代为何如此牛气

公司为全球动力电池龙头企业，2017年起市占率保持全球第一。2020H1由于国内装机量受疫情影响下滑导致暂时落后于LG化学，随着国内装机恢复和公司海外客户开始放
深度合作中国移动，20亿新增合同，东方通领军国产中间件！

公司以中间件软件基础业务为基础，通过并购扩展至行业安全领域，整体来看营收及业绩保持稳健增长。其中，基础软件业务受益于信创推进进程。据国盛证券研报分析，2021年
一文带你读懂，家电行业现在还是个好赛道吗？

虽然没有房地产行业的研究报告，但我找到了最近同事写的家电行业研究报告，今天我们就先来看一下与房地产行业发展有密切关系的家电行业。据悉，2021年~2022年将迎
口子窖：白酒江湖不能卸磨杀驴

（1）公司省内市场占比常年维持80%以上，大商制是公司的主导模式公司作为安徽省区域名酒，多年经营省内市场，成为主要营收贡献区域。公司渠道主要以大商为主。在大商制
子公司利润大起大落！汤臣倍健的报表是否有猫腻？

身处变革的时代，我们需要提出问题和解决问题这两类人，事事纠结“谁对谁错”的第三类人，不稀缺，更不稀罕。（有被内涵到~好怕自己不被社会稀罕~）我们这哪里是在读年报

名家观点

龙头大师兄|暴跌，跑不跑？

一隐秀路大佬就是这波主多南天的主力，今天下午又再度拉回，从同花顺超级盘口看它从水下一路点火，要不是大盘太弱了大概率能走出地天，上次也是在一片绝望中隐秀路大佬引导
老丁说股|下周反弹有预期，但关键的底在哪？

这一周的弱势，始于外资的大幅出逃，不过，周五的弱势，却怪不了人家，参考下北上资金，尽管深港通有一定流出，但也谈不上很大，沪港通更是流入的，所以，周五的弱，纯属于
龙头大师兄|茅台何时止跌？

以岭药业：这个票近期是一路小快步上行，到了今天终于是走了加速，明天溢价问题不大，但周四涨停也说明短线资金进来了，短期估计短线资金还会关注这里，明天预计冲高问题不
老丁说股|短期多方不怂，歇一歇再反弹

10月份已到了最后几天，三季报也进入到了最后的集中披露，而这个时候，就要注意下不及预期的雷股了。怎么规避不及预期的可能雷股？如果对个股基本面不是很了解，还真没什
老丁说股丨二次止跌临近，只需注意一前提

第二段，就是11点之后，不管是中午前的强反击，还是午后的回落，以及随后的僵持，跟北上资金的节奏几乎完全同步了，这意味着，多空双方都选择了观望，然后，才有了北上资

热点题材

用科技看见未来、小米发布光波导智能眼镜，光波导概念股可关注

点评：光波导（Optical Waveguide）技术，是一种让光线扭转 180 度的黑科技。光波导技术在明显减少设备体积和重量的同时，也是唯一一个可以让智能眼
实景三维中国建设技术大纲发布、GIS概念股有望爆发

以实景三维中国为代表的地理信息是支撑新时期数字中国建设的基础性、关键性数据资源。大纲的发布将对各省、自治区、直辖市及各自然资源主管部门、国家林业和草原局、中国地
市场货源紧俏需求强劲、甲酸价格暴涨，甲酸概念股可关注

点评：近期甲酸上游价格暴涨，原料强势运行，成本面支撑明显。市场货源供应紧俏，需求面表现稳健，采购按需为主。相关分析师认为，现甲酸市场涨势强劲，目前市场挺涨心态强
我国将加快车用芯片等技术研发和产业化、行业发展望提速，汽车芯片概念股可关注

数据显示，虽然全球汽车芯片30%的市场在中国，但我国自主汽车芯片产业规模仅占全球的4.5%，约20多亿美元。目前国内汽车行业中车用芯片自研率仅占10%，90%的
全球范围内NFT市场持续火热、市场交易额暴增近35倍，NFT概念股可关注

另一方面，NFT交易价格也在不断刷新记录。8月23日，一副虚拟的石头画像在以400枚以太坊（约合130万美元）的价格售出，创下了NFT艺术品系列EtherRoc

微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021

方法概述

实验结果

24小时热榜

最新资讯