Learning from Noisy Anchors for One-stage Object Detection 论文阅读笔记

news/2025/2/27 4:48:54
  • 这是CVPR2020的一篇论文

  • 当前的目标检测根据于GTbox的IOU把anchor标注为背景或前景类别的分类标签,使得一些不完善的label给训练带来了噪音,提高了训练难度。本文提供了一个 cleanliness score 作为一个soft label,并作为某些trick的权重,提高了目标检测的精度,在retinanet上涨点了2%的map
  • 分类的难度有一点原因是以下现象导致的:由于anchor的label是根据与GT的IOU大小确定的,所以当某个anchor与GT的IOU大于0.5时,也就是说只要目标的一部分进入anchor,就要求分类器把这个anchor分类为某个前景类别,而对于分类器来说可能只看到了这个目标的一部分而已,这就导致了训练的难度;
  • 这种anchor标注的方式可以说是不合理的,因为一个anchor包含部分是否是一个目标没有明显的界限,这和图像分类不同,一个目标是否出现是很明确的,而这里依靠出现的部分的大小比例,根据人设置的阈值,来粗暴地分割为是和否,是不合理的
  • 如图也可以明显感受到,根据IOU大小来确定一个anchor应该被分类为什么有时候是极其noisy和不合理的:
    在这里插入图片描述
  • 并且这种噪声给采样方法和Focal Loss带来更大的影响,因为他们导致很大的loss
  • 因此对于每个anchor,我们需要的不是一个label,而是一个score,能够衡量一个anchor被回归到正确位置和分类为正确标签的可能性,并且最好是网络自己产生的,连续的score而不希望是人为定义的。本文根据分类的score和localization的精确度来确定这个值。并且这个score将用来确定某个anchor在loss中的权重,从而降低noisy anchor的影响
  • 这个值的定义如下:
    在这里插入图片描述
  • 可见,score只对按原有方法归类为positive的anchor进行。这里的loc_a表示经过回归支路进行调整后的bbox与GTbox的IOU,cls_c表示分类输出(猜测是经过softmax或者sigmoid后的概率值,原文没有给代码无法判断)
  • 举个例子,原来的二分类损失如下:
    在这里插入图片描述
    其中t为1或0,但现在可以是0-1之间的一个离散值。
  • 同时,这个c可以用来当作focal loss的权重:
    在这里插入图片描述

在这里插入图片描述
其中,f为: f ( x ) = 1 1 − x f(x)=\frac{1}{1-x} f(x)=1x1
完整算法如下:
在这里插入图片描述


http://www.niftyadmin.cn/n/3657988.html

相关文章

PC时代IE浏览器获胜,Web时代呢?

一直以来,IE阵营和Firefox阵营冲突不断,浏览器孰优孰劣的争执不绝于耳。而就在这几天,这个本就不平静的浏览器市场,突然变得更加喧闹起来。IE和Firefox两个之间曾经充满故事的浏览器产品几乎同时以崭新的姿态出现在人们的面前--IE…

Scale-Equalizing Pyramid Convolution for Object Detection 论文阅读笔记

这是CVPR2020的一篇文章 提出一种3D的卷积,除了在H和W维度,希望在scale维度,也就是pyramid的特征图上进行一种特殊的卷积,能够同时考虑多个scale的pyramid feature。现有方法对pyramid feature一般是之间放缩后相加,不…

扎根IE开发拥有自己理想的程序员--张硕

关于浏览器的话题,以ie7.0和firefox2.0 的相继发布,变成了一个引爆点.浏览器技术会朝什么方向发展呢?在PC时代ie6成为了一个标准,但那已经是5年前的事情了.那么在Web时代…

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文阅读笔记

这是微软亚洲研究院的一篇文章,原文作者: 文章目的在于探索将transformer用在vision问题上的可能性,从而充分利用transformer建模长依赖的能力把NLP模型用到cv上要解决的一个问题在于,NLP的注意单元大小是固定的,就是…

FcaNet: Frequency Channel Attention Networks 论文阅读笔记

这是浙江大学的一篇文章,目前放在arxiv上,原文作者: 文章的主要贡献在于把channel attention改为multi-spectral channel attention,文章认为原有channel attention利用global average pooling产生attention的值不太好&#xff0…

前端如何实现面向对象

交流所记: 面向对象的三要素: 封装:把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的类或者对象隐藏信息继承:它可以使用现有类的所有功能,并在无…

对话Firefox Gecko内核开发者:李沫南

这些年来,随着浏览器的发展,浏览器引擎其实已经分为比较鲜明的几派,比如IE 的Trident,Firefox 的Gecko等.由。IE 浏览器的用户量相对庞大许多,所以国内许多开发者和用户可能对围绕IE开发比较熟悉。那么究竟围绕Gecko开…

Medical Transformer 论文阅读笔记

这是arxiv上的一篇文章,文章作者: 目前用卷积神经网络来做图像分割虽然也能取得一些好效果,然而卷积神经网络无法对长依赖进行建模,虽然后续提出了一些弥补的trick如注意力机制等,仍然无法完全解决这个问题。而transf…