CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架
2022-03-20 18:11 来源: 科技游乐园
原标题:CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架
©作者 | 朱磊
来源 | 机器之心
将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大、字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能。
物体定位作为计算机视觉的基本问题,可以为场景理解、自动驾驶、智能诊疗等领域提供重要的目标位置信息。然而,物体定位模型的训练依赖于物体目标框或物体掩模等密集标注信息。这些密集标签的获取依赖于对图像中各像素的类别判断,因此极大地增加了标注过程所需的时间及人力。
为减轻标注工作的负担,弱监督物体定位 (WSOL) 通过利用图像级标签(如图像类别)作为监督信号进行物体定位模型的训练,以摆脱训练过程对像素级标注的需求。该类方法大多采用分类激活图 (CAM) 的流程训练一个图像级特征分类器,而后将该分类器作用于像素级特征得到物体定位结果。但是图像级特征通常保有充足的物体信息,仅识别其中具有鉴别性的物体特征即正确分类图像。因此,在将该分类器作用于在所含物体信息并不充足的像素级特征进行物体定位时,最终得到的定位图往往只能感知到部分物体区域而非整个物体。
为解决这一问题,本文将基于 CAM 的弱监督物体定位过程看作是一个特殊的域自适应任务,即在保证在源图像级特征域上训练的分类器应用在目标像素域时仍具有良好的分类表现,从而使其更好的在测试过程中进行目标定位。从这一视角来看,我们可以很自然的将域自适应方法迁移到弱监督物体定位任务中,使得仅依据图像标签训练的模型可以更为精准的定位目标物体。
文章地址:
https://arxiv.org/abs/2203.01714
项目地址:
目前,这项研究已被 CVPR 2022 接收,完整训练代码及模型均已开源。主要由北大分子影像/医学智能实验室朱磊和字节跳动佘琪参与讨论和开发,北大分子影像/医学智能实验室卢闫晔老师给予指导。
方法
图1. 方法整体思想
弱监督物体定位实际上可以看作是在图像特征域(源域 )中依据图像级标签(源域金标 )完全监督地训练模型 ,并在测试过程中将该模型作用于像素特征域(目标域 )以获取物体定位热力图。总的来看,我们的方法希望在此过程中引入域自适应方法进行辅助,以拉近源域 与目标域 的特征分布,从而增强在模型 对于目标域 的分类效果,因此我们的损失函数可以表示为:
其中 为源域分类损失,而 则为域自适应损失。
由于弱监督定位中源域和目标域分别为图像域和像素域,我们所面临的域自适应任务具有一些独有的性质:1)目标域样本与源域样本的数量并不平衡(目标域样本是源域的 N 倍,N 为图像像素数);2)目标域中存在与源域标签不同的样本(背景像素不属于任何物体类别);3)目标域样本与源域样本存在一定联系(图像特征由像素特征聚合而得到)。
为了更好地考虑这三个特性,我们进而提出了一种域自适应定位损失(DAL Loss)作为 以拉近图像域 S 与像素域 T 的特征分布。
图2. 弱监督定位中源域目标域的划分以及其在弱监督定位中的作用
首先,如图 2-A,我们将目标域样本 T 进一步分为三个子集:1)“伪源域样本集 ”表示与源域特征分布相似的目标域样本;2)“未知类样本集 ”表示类别在源域中不存在的 l 目标域样本;3)“真实目标域样本集 ”表示其余样本。依据这三个子集,我们提出的域自适应定位损失可以表示为:
从上述公式可以看到,在域自适应定位损失中,伪源域样本被看作源域样本的补充而非目标域样本,以解决样本不平衡问题。同时,为了减少具有源域未知类别的样本 对分类准确率的干扰,我们仅使用传统自适应损失 (如最大均值差异 MMD)拉近扩增后的源域样本集 与真实目标域样本集 的特征分布。而这些被排除在域自适应过程之外的样本 ,可以被用作 Universum 正则 ,以保证分类器所定义的类别边界也能更好的感应到目标域。