paper_reading/cvpr2024_analysis.md

35 KiB
Raw Blame History

CVPR2024论文统计分析

图像分割

GraCo: Granularity-Controllable Interactive Segmentation

中文翻译名: GraCo粒度可控的交互式分割 网址: https://cvpr.thecvf.com/virtual/2024/poster/31571 摘要: 交互式分割 (IS) 根据用户输入对图像中的特定对象或部分进行分割。当前的 IS 管道分为两类:单粒度输出和多粒度输出。后者旨在缓解前者中存在的空间模糊性。然而,多粒度输出管道的交互灵活性有限,并会产生冗余结果。在这项工作中,我们引入了粒度可控交互式分割 (GraCo),这是一种新方法,它允许通过向输入引入额外参数来精确控制预测粒度。这增强了交互式系统的定制性,并在解决歧义的同时消除了冗余。然而,注释多粒度掩码的成本过高,以及缺乏具有粒度注释的可用数据集,使得模型难以获得控制输出粒度的必要指导。为了解决这个问题,我们设计了一个任意粒度的掩码生成器,它利用预先训练的 IS 模型的语义属性来自动生成丰富的掩码粒度对,而无需额外的手动注释。基于这些对,我们提出了一种粒度可控的学习策略,有效地将粒度可控性赋予 IS 模型。在对象和部件级别的复杂场景上进行的大量实验表明,我们的 GraCo 比以前的方法具有显著的优势。这凸显了 GraCo 成为灵活注释工具的潜力,能够适应不同的分割场景。代码可在补充材料中找到。

Multi-view Aggregation Network for Dichotomous Image Segmentation

中文翻译名: 用于二分图像分割的多视图聚合网络 网址: https://cvpr.thecvf.com/virtual/2024/poster/29916 摘要: 二分图像分割 (DIS) 是近年来兴起的一种从高分辨率自然图像中高精度分割物体的方法。在设计有效的 DIS 模型时,最大的挑战是如何平衡小感受野中高分辨率目标的语义弥散和大感受野中高精度细节的丢失。现有方法依赖繁琐的多个编码器-解码器流和阶段来逐步完成全局定位和局部细化。受人类视觉系统通过多视角观察捕捉感兴趣区域的启发,我们将 DIS 建模为多视角物体感知问题,并提供了一个简约的多视角聚合网络 (MVANet),将远景和近景的特征融合统一为具有一个编码器-解码器结构的单个流。在提出的多视角互补定位和细化模块的帮助下,我们的方法建立了跨多个视角的长距离、深刻的视觉交互,使详细的近景特征能够专注于细化高精度细节。在流行的 DIS-5K 数据集上进行的实验表明,我们的 MVANet 在准确性和速度方面都明显优于最先进的方法。

pix2gestalt: Amodal Segmentation by Synthesizing Wholes

中文翻译名: pix2gestalt通过合成整体进行非模态分割 网址: https://cvpr.thecvf.com/virtual/2024/poster/31108 摘要: 我们引入了 pix2gestalt这是一个零样本无模态分割框架它可以学习估计被遮挡后仅部分可见的整个物体的形状和外观。通过利用大规模扩散模型并将其表示转移到此任务我们学习了一种条件扩散模型用于在具有挑战性的零样本情况下重建整个物体包括破坏自然和物理先验的例子例如艺术品。作为训练数据我们使用一个合成整理的数据集其中包含与整个对应物体配对的遮挡物体。实验表明我们的方法在既定基准上优于监督基线。此外我们的模型还可用于在存在遮挡的情况下显著提高现有物体识别和 3D 重建方法的性能。

Semantic-aware SAM for Point-Prompted Instance Segmentation

中文翻译名: 用于点提示实例分割的语义感知 SAM 网址: https://cvpr.thecvf.com/virtual/2024/poster/29420 摘要: 视觉任务中的单点注释在研究中变得越来越突出,其目标是最大限度地降低标记成本。最近,诸如 Segment Anything (SAM) 之类的视觉基础模型因其强大的零样本能力和出色的注释性能而得到了广泛的使用。然而SAM 的类无关输出和对局部分割的高置信度引入了“语义歧义”,对精确的类别特定分割构成了挑战。在本文中,我们介绍了一种使用 SAM 的经济高效的类别特定分割器。为了应对这一挑战,我们设计了一个语义感知实例分割网络 (SAPNet),它将具有匹配能力的多实例学习 (MIL) 和具有点提示的 SAM 集成在一起。SAPNet 策略性地选择由 SAM 生成的最具代表性的掩码提案来监督分割特别关注对象类别信息。此外我们引入了点距离引导和框挖掘策略来缓解固有挑战弱监督分割中的“组”和“局部”问题。这些策略有助于进一步提高整体分割性能。Pascal VOC 和 COCO 上的实验结果证明了我们提出的 SAPNet 的良好性能,强调了其语义匹配能力及其推进点提示实例分割的潜力。代码可在 https://github.com/CVPR666/SAPNet 上找到。

RobustSAM: Segment Anything Robustly on Degraded Images

中文翻译名: RobustSAM对退化图像进行稳健的分割 网址: https://cvpr.thecvf.com/virtual/2024/poster/29230 摘要: 任意分割模型 (SAM) 已成为图像分割领域的一种变革性方法,因其强大的零样本分割能力和灵活的提示系统而广受赞誉。尽管如此,其性能仍受到质量下降图像的挑战。为了解决这一限制,我们提出了稳健的任意分割模型 (RobustSAM),该模型可增强 SAM 在低质量图像上的性能,同时保留其可提示性和零样本泛化性。我们的方法利用预先训练的 SAM 模型仅需少量参数增量和计算要求。RobustSAM 的附加参数可以在 8 个 GPU 上在 30 小时内优化,证明了其对于典型研究实验室的可行性和实用性。我们还介绍了 Robust-Seg 数据集,这是一组 688K 个具有不同降级的图像掩码对,旨在最佳地训练和评估我们的模型。在各种分割任务和数据集上进行的大量实验证实了 RobustSAM 的卓越性能,尤其是在零样本条件下,凸显了其在现实世界中广泛应用的潜力。此外,我们的方法已被证明可以有效提高基于 SAM 的下游任务(例如单幅图像去雾和去模糊)的性能。代码和数据集将提供。

Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation

中文翻译名: Frozen CLIP弱监督语义分割的强大支柱 网址: https://cvpr.thecvf.com/virtual/2024/poster/30253 摘要: 扩张卷积通过在连续元素之间插入间隙来扩展感受野,在计算机视觉中得到广泛应用。在本研究中,我们从频谱分析的角度提出了三种改进扩张卷积各个阶段的策略。与将全局扩张率固定为超参数的传统做法不同,我们引入了频率自适应扩张卷积 (FADC),它根据局部频率分量在空间上动态调整扩张率。随后,我们设计了两个插件模块来直接增强有效带宽和感受野大小。自适应核 (AdaKern) 模块将卷积权重分解为低频和高频分量并在每个通道的基础上动态调整这些分量之间的比率。通过增加卷积权重的高频部分AdaKern 可以捕获更多的高频分量,从而提高有效带宽。频率选择 (FreqSelect) 模块通过空间变量重新加权来最佳地平衡特征表示中的高频和低频分量。它抑制背景中的高频以鼓励 FADC 学习更大的扩张,从而增加扩大范围的接受域。在分割和物体检测方面的大量实验一致验证了我们方法的有效性。代码已在 https://github.com/Linwei-Chen/FADC 上公开发布。

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

中文翻译名: EfficientSAM利用蒙版图像预训练实现高效分割 网址: https://cvpr.thecvf.com/virtual/2024/poster/30131 摘要: 任何事物分割模型 (SAM) 已成为众多视觉应用的强大工具。推动零样本迁移和高通用性出色性能的关键组件是在大量高质量 SA-1B 数据集上训练的超大型 Transformer 模型。虽然 SAM 模型很有用,但其巨大的计算成本限制了其在更广泛的实际应用中的应用。为了解决这一限制,我们提出了 EfficientSAM这是一种轻量级 SAM 模型,其性能不错,复杂度大大降低。我们的想法是基于利用蒙版图像预训练 SAMI它学习从 SAM 图像编码器重建特征,以实现有效的视觉表征学习。此外,我们采用 SAMI 预训练的轻量级图像编码器和蒙版解码器来构建 EfficientSAM并在 SA-1B 上微调模型以完成任何事物分割任务。我们对多个视觉任务进行了评估,包括图像分类、对象检测、实例分割和语义对象检测,发现我们提出的预训练方法 SAMI 始终优于其他蒙版图像预训练方法。在零样本实例分割等任何分割任务上,我们的带有 SAMI 预训练轻量级图像编码器的 EfficientSAM 表现良好,与其他快速 SAM 模型相比具有显著的增益(例如,在 COCO/LVIS 上约为 4 AP

迁移学习与类增量学习

OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning

中文翻译名: OrCo通过正交性和对比实现小样本类增量学习的更好泛化 网址: https://cvpr.thecvf.com/virtual/2024/poster/30726 摘要: 少量样本类增量学习 (FSCIL) 引入了一种范式其中问题空间会随着数据有限而扩展。随着数据逐渐增加FSCIL 方法本质上面临着灾难性遗忘的挑战,这使得模型容易覆盖先前获得的知识。此外,鉴于任何给定时间可用的标记样本稀缺性,模型可能容易过度拟合,并且很难在广泛的预训练和有限的增量数据之间取得平衡。为了应对这些挑战,我们提出了基于两个核心原则的 OrCo 框架:表征空间中的特征正交性和对比学习。具体而言,我们通过在预训练阶段采用监督和自监督对比损失的组合来改进嵌入空间的泛化。此外,我们引入了 OrCo 损失来解决增量会话期间数据限制带来的挑战。通过特征空间扰动和类之间的正交性OrCo 损失最大化了边距并为后续增量数据预留了空间。这反过来又确保了特征空间中新类别的适应性,而不会损害先前获得的知识。我们的实验结果展示了三个基准数据集(包括 mini-ImageNet、CIFAR100 和 CUB 数据集)的最优性能。代码将公开发布。

View-Category Interactive Sharing Transformer for Incomplete Multi-View Multi-Label Learning

中文翻译名: 用于不完整多视图多标签学习的视图类别交互共享 Transformer 网址: https://cvpr.thecvf.com/virtual/2024/poster/31050 摘要: 最近,不可迁移学习 (NTL) 被提出来限制模型向目标域的泛化,这是知识产权 (IP) 保护的最新解决方案。然而,已建立的“可迁移性障碍”对降低目标域性能的鲁棒性尚未得到很好的研究。在本文中,我们首先表明 NTL 模型的泛化性能在第三方域(即 NTL 训练阶段中看不见的域上受到广泛损害。我们探索了损害模式并发现由于不可迁移任务的主导泛化NTL 模型倾向于在第三方域上做出与目标域一致的预测,即使从第三方域到源域的分布只有轻微的转移。受这些发现的启发,我们通过提出一种简单但有效的方法(称为 TransNTL来用少量源域数据恢复目标域性能揭示了 NTL 的潜在风险。具体来说,通过对少数源域数据执行一组不同的扰动,我们获得了不同的第三方域,这些域会引发与不可用目标域相同的损伤模式。然后,我们在损伤修复自蒸馏框架下对 NTL 模型进行微调,其中源域预测用于教模型本身如何在第三方域上进行预测,从而修复受损的泛化能力。从经验上讲,在标准 NTL 基准上的实验表明,所提出的 TransNTL 达到了∼∼仅使用 10% 的源域数据就实现了 72% 的目标域改进。最后,我们还探索了一种可行的防御方法,并通过实证证明了其有效性。

无监督/弱监督学习

Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark Discovery

中文翻译名: 采用两阶段聚类的姿势引导式自我训练,实现无监督地标发现 网址: https://cvpr.thecvf.com/virtual/2024/poster/29207 摘要: 为了开发一个强大的 ULD 框架,我们探索了一种最新的自监督学习算法范式(称为扩散模型)的潜力。最近的一些研究表明,这些模型隐含着重要的对应线索。为了利用扩散模型的潜力完成 ULD 任务,我们做出了以下核心贡献。首先,我们提出了一种 ZeroShot ULD 基线,该基线基于对随机像素位置进行简单聚类和最近邻匹配。它比现有的 ULD 方法提供了更好的结果。其次,受 ZeroShot 性能的启发,我们开发了一种基于扩散特征的 ULD 算法,该算法使用自训练和聚类,其性能也显著优于之前的方法。第三,我们引入了一种基于生成潜在姿势代码的新代理任务,并提出了一种两阶段聚类以促进有效的伪标记,从而显着提高了性能。总体而言,我们的方法在四个具有挑战性的基准 AFLW、MAFL、CatHeads 和 LS3D 上始终以显著的优势优于最先进的方法。

Transductive Zero-Shot and Few-Shot CLIP

中文翻译名: 传导式零样本和少样本 CLIP 网址: https://cvpr.thecvf.com/virtual/2024/poster/31157 摘要: 传导推理在小样本图像分类中得到了广泛的研究,但在最近快速发展的关于采用 CLIP 等视觉语言模型的文献中却被完全忽视了。本文解决了传导零样本和小样本 CLIP 分类挑战,其中推理是在一小批未标记查询样本上联合执行的,而不是单独处理每个实例。我们最初构建了信息丰富的视觉文本概率特征,从而导致单位单纯形集上的分类问题。受期望最大化 (EM) 的启发,我们基于优化的分类目标使用狄利克雷定律为每个类建模数据概率分布。然后使用一种新颖的块主要化-最小化算法来解决最小化问题,该算法同时估计分布参数和类分配。对 11 个数据集进行的大量数值实验强调了我们的批量推理方法的优势和有效性。在包含 75 个样本的测试批次的零样本任务中,我们的方法产生了近 20ImageNet 准确率比 CLIP 的零样本性能有所提高。此外,我们在少样本设置中的表现优于最先进的方法。代码可在以下位置获取:\url{https://github.com/SegoleneMartin/transductive-CLIP}。

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

中文翻译名: 类别:模型解释与优化 网址: https://cvpr.thecvf.com/virtual/2024/poster/31637 摘要: 语义分割天生依赖于大量像素级注释数据,从而导致了无监督方法的出现。其中,利用自监督 Vision Transformers 进行无监督语义分割 (USS) 一直凭借富有表现力的深度特征取得稳步进展。然而,对于对具有复杂对象的图像进行语义分割,一个主要的挑战仍然存在:在块级特征中缺乏明确的对象级语义编码。这种技术限制通常会导致对具有不同结构的复杂对象的分割不足。为了解决这一差距,我们提出了一种新方法 EAGLE它强调以对象为中心的表示学习来进行无监督语义分割。具体来说我们引入了 EiCue这是一种光谱技术通过从深度图像特征的语义相似性矩阵和图像的颜色亲和力中得出的特征基来提供语义和结构线索。此外通过将以对象为中心的对比损失与 EiCue 结合起来,我们引导我们的模型学习具有图像内和图像间对象特征一致性的对象级表示,从而提高语义准确性。在 COCO-Stuff、Cityscapes 和 Potsdam-3 数据集上进行的大量实验证明了 EAGLE 的先进 USS 结果,可在复杂场景中实现准确、一致的语义分割。

Unsupervised Keypoints from Pretrained Diffusion Models

中文翻译名: 来自预训练扩散模型的无监督关键点 网址: https://cvpr.thecvf.com/virtual/2024/poster/29547 摘要: 在现代神经网络架构的帮助下关键点和地标的无监督学习取得了重大进展但性能仍无法与监督学习相媲美因此其实用性值得怀疑。我们利用文本到图像扩散模型中的新兴知识实现更强大的无监督关键点。我们的核心思想是找到文本嵌入使生成模型始终关注图像中的紧凑区域即关键点。为此我们只需优化文本嵌入使去噪网络中的交叉注意图局部化为具有较小标准差的高斯分布。我们在多个数据集上验证了我们的性能CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion 和 Human3.6m 数据集。我们实现了显着提高的准确性,有时甚至优于监督数据,特别是对于非对齐和较少整理的数据。

目标检测

Tune-An-Ellipse: CLIP Has Potential to Find What You Want

中文翻译名: 调谐椭圆CLIP 可以找到您想要的东西 网址: https://cvpr.thecvf.com/virtual/2024/poster/30111 摘要: 用于对象检测的单源域泛化 (SDG) 是一项具有挑战性但必不可少的任务,因为看不见的域的分布偏差会显著降低算法性能。然而,现有的方法试图提取域不变的特征,忽略了有偏差的数据会导致网络学习非因果且泛化性较差的有偏差特征。为此,我们提出了一种无偏更快 R-CNN (UFR) 用于可泛化的特征学习。具体来说,我们从因果角度制定对象检测中的 SDG并构建结构因果模型 (SCM) 来分析任务中的数据偏差和特征偏差,这些偏差是由场景混杂因素和对象属性混杂因素引起的。基于 SCM我们设计了一个用于数据增强的全局-局部转换模块,它可以有效地模拟领域多样性并减轻数据偏差。此外,我们引入了一个因果注意力学习模块,该模块结合了设计的注意力不变性损失来学习对场景混杂因素具有鲁棒性的图像级特征。此外,我们开发了一个具有显式实例约束和隐式原型约束的因果原型学习模块,进一步减轻了对象属性混杂因素的负面影响。在五个场景上的实验结果证明了我们的方法具有突出的泛化能力,在夜间清晰场景中 mAP 提高了 3.9%。

Active Domain Adaptation with False Negative Prediction for Object Detection

中文翻译名: 用于物体检测的具有假阴性预测的主动域自适应 网址: https://cvpr.thecvf.com/virtual/2024/poster/30672 摘要: 域自适应使模型适应具有不同外观的各种场景。在这个领域,主动域自适应对于在目标域中有效采样有限数量的数据至关重要。我们提出了一种用于物体检测的主动域自适应方法,重点是量化物体的不可检测性。现有的主动采样方法在考虑未检测到的物体的同时估计模型预测的不确定性时遇到了挑战。我们提出的主动采样策略使用一种同时考虑不确定性和不可检测性的主动学习方法解决了这个问题。我们新提出的假阴性预测模块评估包含未检测到物体的图像的不可检测性,从而实现更明智的主动采样。这种方法考虑了以前被忽视的未检测到的物体,从而减少了假阴性错误。此外,使用未标记的数据,我们提出的方法利用不确定性引导的伪标记来进一步增强域自适应。大量实验表明,我们提出的方法的性能与全监督学习的性能相差无几,而只需要后者所需标记工作的一小部分。

模型解释与优化

Understanding Video Transformers via Universal Concept Discovery

中文翻译名: 通过通用概念发现理解视频Transformers 网址: https://cvpr.thecvf.com/virtual/2024/poster/31314 摘要: 本文研究了基于概念的视频Transformers表示的可解释性问题。具体来说我们试图基于自动发现的高级时空概念来解释视频Transformers的决策过程。基于概念的可解释性的先前研究仅集中在图像级任务上例如图像分类。相比之下视频模型处理增加的时间维度增加了复杂性并在识别随时间变化的动态概念方面带来了挑战。在这项工作中我们通过引入第一个视频Transformers概念发现 (VTCD) 算法系统地解决了这些挑战。为此我们提出了一种有效的方法来无监督识别视频Transformers表示单元 - 概念。然后,我们设计了一种抗噪算法来对这些单元对模型输出的重要性进行排名,从而使我们能够分析其决策过程。通过对一组不同的监督和自监督模型进行联合分析,我们对视频表示的通用单元做出了许多重要的发现。最后,我们证明 VTCD 可用于提高细粒度任务的模型性能。

LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model

中文翻译名: LocLLM通过大型语言模型开发可通用的人类关键点定位 网址: https://cvpr.thecvf.com/virtual/2024/poster/29972 摘要: 知识蒸馏涉及使用基于共享温度的 softmax 函数将软标签从教师转移到学生。然而,假设教师和学生之间共享温度意味着他们的 logit 在 logit 范围和方差方面必须完全匹配。考虑到他们之间的能力差异以及教师的固有 logit 关系足以让学生学习,这种副作用限制了学生的表现。为了解决这个问题,我们建议将温度设置为 logit 的加权标准差,并执行即插即用是是在应用 softmax 和 Kullback-Leibler 散度之前对 logit 标准化进行评分预处理。我们的预处理使学生能够专注于来自老师的基本 logit 关系,而不是要求幅度匹配,并且可以提高现有基于 logit 的蒸馏方法的性能。我们还展示了一个典型案例,其中老师和学生之间共享温度的传统设置无法可靠地产生真实的蒸馏评估;尽管如此,我们的成功缓解了这一挑战是是-score。我们在 CIFAR-100 和 ImageNet 上对各种学生和教师模型进行了广泛的评估,显示出其显著的优势。由我们的预处理驱动的 vanilla 知识蒸馏可以实现与最先进方法相比的良好性能,其他蒸馏变体可以在我们的预处理的帮助下获得相当大的收益。

Discovering and Mitigating Visual Biases through Keyword Explanation

中文翻译名: 通过关键词解释发现并减轻视觉偏见 网址: https://cvpr.thecvf.com/virtual/2024/poster/30884 摘要: 解决计算机视觉模型中的偏差对于现实世界的 AI 系统部署至关重要。然而,减轻视觉偏差具有挑战性,因为它们的性质无法解释,通常通过可视化或样本统计间接识别,这需要额外的人工监督才能进行解释。为了解决这个问题,我们提出了 Bias-to-Text (B2T) 框架它将视觉偏差解释为关键字。具体来说我们从错误预测图像的标题中提取常用关键字来识别模型中的潜在偏差。然后我们使用视觉语言评分模型测量这些关键词与错误预测图像的相似性来验证这些关键词。视觉偏差的关键字解释形式提供了几个优点例如为偏差发现提供了明确的组命名以及使用这些组名进行去偏差的自然扩展。我们的实验表明B2T 可以识别已知偏差,例如 CelebA 中的性别偏差、Waterbirds 中的背景偏差以及 ImageNet-R 和 ImageNet-C 中的分布变化。此外B2T 还可以在更大的数据集(例如 Dollar Street 和 ImageNet中发现新的偏差。例如我们在 ImageNet 中发现了“蜜蜂”和“花”之间的语境偏差。我们还重点介绍了 B2T 关键字的各种应用包括去偏差训练、CLIP 提示、模型比较和标签诊断。

Deciphering What and Where Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations

中文翻译名: 从分层分布神经表征的谱聚类解读“什么”和“哪里”的视觉通路 网址: https://cvpr.thecvf.com/virtual/2024/poster/30168 摘要: 我们提出了一种分析神经网络激活中包含的分组信息的方法允许从大型预训练视觉模型的行为中提取空间布局和语义分割。与之前的工作不同我们的方法对网络的激活状态进行整体分析利用所有层的特征无需猜测模型的哪一部分包含相关信息。受经典谱聚类的启发我们将此分析表述为优化目标涉及一组亲和力矩阵每个矩阵都是通过比较不同层内的特征形成的。使用梯度下降解决这个优化问题使我们的技术可以从单个图像扩展到数据集级分析包括后者中的图像内和图像间关系。分析预训练的生成Transformers可以深入了解此类模型学习的计算策略。将亲和力等同于注意层之间的关键查询相似性会产生编码场景空间布局的特征向量而通过值向量相似性定义亲和力会产生编码对象身份的特征向量。该结果表明键和查询向量根据空间接近度“哪里”通路协调注意力信息流而值向量细化语义类别表示“什么”通路

目标追踪与特征匹配

Matching Anything by Segmenting Anything

中文翻译名: 通过分割任意内容匹配任意内容 网址: https://cvpr.thecvf.com/virtual/2024/poster/29590 摘要: 在复杂场景中,跨视频帧对相同对象进行稳健关联对于许多应用至关重要,尤其是多对象跟踪 (MOT)。当前的方法主要依赖于标记的特定领域视频数据集,这限制了学习到的相似性嵌入的跨领域泛化。我们提出了 MASA这是一种用于稳健实例关联学习的新方法能够在不同领域内匹配视频中的任何对象而无需跟踪标签。利用来自 Segment Anything Model (SAM) 的丰富对象分割MASA 通过详尽的数据转换来学习实例级对应关系。我们将 SAM 输出视为密集对象区域提议,并学习从大量图像集合中匹配这些区域。我们进一步设计了一个通用 MASA 适配器,它可以与基础分割或检测模型协同工作,使它们能够跟踪任何检测到的对象。这些组合在复杂域中表现出强大的零样本跟踪能力。在多个具有挑战性的 MOT 和 MOTS 基准上进行的大量测试表明,所提出的方法仅使用未标记的静态图像,在零样本关联中实现了比使用完全注释的域内视频序列训练的最先进的方法更好的性能。我们的代码可在 https://github.com/siyuanliii/masa 上找到。

Self-Supervised Multi-Object Tracking with Path Consistency

中文翻译名: 具有路径一致性的自监督多目标跟踪 网址: https://cvpr.thecvf.com/virtual/2024/poster/30783 摘要: 在本文中我们提出了一种新颖的路径一致性概念以在不使用手动对象身份监督的情况下学习稳健的对象关联。我们的关键思想是要通过帧跟踪对象我们可以通过改变模型可以观察到的帧即跳过观察中的帧从模型中获得多个不同的关联结果。由于观察的差异不会改变对象的身份因此获得的关联结果应该是一致的。基于这个原理我们通过跳过中间帧中的观察来生成多条路径并制定路径一致性损失以强制关联结果与那些不同的观察路径一致。我们使用提出的损失训练了一个对象匹配模型并通过在三个跟踪数据集MOT17、PersonPath22、KITTI上进行大量实验我们证明了我们的方法在各种评估指标上都优于现有的无监督方法并且具有一致的边际甚至达到了接近监督方法的性能。

Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed

中文翻译名: 高效的 LoFTR具有稀疏速度的半密集局部特征匹配 网址: https://cvpr.thecvf.com/virtual/2024/poster/31160 摘要: 我们提出了一种在图像间高效生成半密集匹配的新方法。之前的无检测器匹配器LoFTR在处理大视点变化和纹理贫乏的场景中表现出了卓越的匹配能力但效率较低。我们重新审视了它的设计选择并在效率和准确性方面进行了多项改进。一个关键的观察是由于共享的局部信息在整个特征图上执行Transformers是多余的因此我们提出了一种具有自适应标记选择的聚合注意机制来提高效率。此外我们发现LoFTR的细相关模块存在空间偏差这对匹配精度不利。提出了一种新颖的两阶段相关层来实现无偏子像素对应从而提高精度。我们的效率优化模型是2.5×2.5×比 LoFTR 更快,甚至可以超越最先进的高效稀疏匹配管道 SuperPoint + LightGlue。此外大量实验表明与竞争性半密集匹配器相比我们的方法可以实现更高的准确率并具有相当大的效率优势。这为图像检索和 3D 重建等大规模或延迟敏感型应用开辟了令人兴奋的前景。我们的代码将发布以供重复使用。

多模态学习与推理

Question Aware Vision Transformer for Multimodal Reasoning

中文翻译名: 用于多模态推理的问题感知视觉Transformers 网址: https://cvpr.thecvf.com/virtual/2024/poster/31218 摘要: 视觉语言 (VL) 模型已成为研究的焦点,推动了多模态推理的显著进步。这些架构通常包括视觉编码器、大型语言模型 (LLM) 和将视觉特征与 LLM 的表示空间对齐的投影模块。尽管它们取得了成功,但仍存在一个关键的限制:视觉编码过程仍然与用户查询脱钩,通常以与图像相关的问题的形式出现。因此,生成的视觉特征可能无法最佳地适应图像的查询特定元素。为了解决这个问题,我们引入了 QA-ViT这是一种用于多模态推理的问题感知视觉Transformers方法它将问题感知直接嵌入视觉编码器中。这种集成会产生动态视觉特征专注于与提出的问题相关的图像方面。QA-ViT 与模型无关,可以有效地整合到任何 VL 架构中。大量实验证明了将我们的方法应用于各种多模态架构的有效性,从而导致跨不同任务的持续改进,并展示了其增强视觉和场景文本理解的潜力。

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

中文翻译名: Chat-UniVi统一的视觉表征为大型语言模型提供图像和视频理解能力 网址: https://cvpr.thecvf.com/virtual/2024/poster/31713 摘要: 大型语言模型已在广泛的开放式任务中展示了令人印象深刻的通用能力,并已将其实用性扩展到涵盖多模式对话。然而,现有方法在有效处理图像和视频理解方面遇到了挑战,特别是在视觉标记有限的情况下。在这项工作中,我们引入了 Chat-UniVi这是一种统一视觉语言模型能够通过统一的视觉表示来理解和参与涉及图像和视频的对话。具体来说我们使用一组动态视觉标记来统一表示图像和视频。该表示框架使模型能够有效地利用有限数量的视觉标记来同时捕获图像所需的空间细节和视频所需的全面时间关系。此外我们利用多尺度表示使模型能够感知高级语义概念和低级视觉细节。值得注意的是Chat-UniVi 是在包含图像和视频的混合数据集上进行训练的允许直接应用于涉及两种媒介的任务而无需任何修改。大量的实验结果表明Chat-UniVi 的表现始终优于专门为图像或视频设计的现有方法。代码可在https://github.com/PKU-YuanGroup/Chat-UniVi获取

图像恢复与补全

Restoration by Generation with Constrained Priors

中文翻译名: 受约束先验的生成恢复 网址: https://cvpr.thecvf.com/virtual/2024/poster/30743 摘要: 去噪扩散模型固有的生成能力使其非常适合图像恢复任务,其目标是在生成空间中找到与输入图像最相似的最优高质量图像。我们提出了一种方法,通过简单地向要恢复的输入图像添加噪声,然后进行去噪,来调整预训练扩散模型以进行图像恢复。我们的方法基于生成模型的空间需要约束的观察。我们通过使用一组捕捉输入图像特征的锚图像对生成模型进行微调来施加此约束。有了约束空间,我们就可以利用用于生成的采样策略来进行图像恢复。我们根据以前的方法进行了评估,并在多个真实世界的恢复数据集上展示了在保留身份和图像质量方面的卓越性能。我们还展示了个性化恢复的一个重要且实际的应用,其中我们使用个人相册作为锚图像来约束生成空间。这种方法使我们能够产生准确保留高频细节的结果,这是以前的工作无法做到的。

Amodal Completion via Progressive Mixed Context Diffusion

中文翻译名: 通过渐进式混合语境扩散实现非模态补全 网址: https://cvpr.thecvf.com/virtual/2024/poster/31293 摘要: 即使物体部分隐藏在视野之外我们的大脑也能毫不费力地识别它们。看到隐藏物体的可见部分被称为非模态补全然而尽管进展迅速这项任务对于生成式人工智能来说仍然是一个挑战。我们建议避开现有方法的许多困难这些方法通常涉及预测非模态掩码然后生成像素的两步过程。我们的方法需要跳出思维定式真的我们跳出物体边界框利用其上下文来指导预先训练的扩散修复模型然后逐步扩大被遮挡的物体并修剪多余的背景。我们克服了两个技术挑战1) 如何摆脱不必要的共现偏差这种偏差往往会重新生成类似的遮挡物2) 如何判断非模态补全是否成功。与众多成功补全案例中的现有方法相比,我们的非模态补全方法表现出更好的照片级真实感补全结果。最好的部分是什么?它不需要任何特殊的训练或模型微调。

ReID

A Pedestrian is Worth One Prompt: Towards Language Guidance Person Re-Identification

中文翻译名: 一个行人值一个提示:面向语言指导的人员重新识别 网址: https://cvpr.thecvf.com/virtual/2024/poster/29372 摘要: 机器学习的最新进展凸显了双曲空间的潜力,因为它们可以有效地学习分层特征表示。虽然在单模态环境中利用双曲空间方面取得了进展,但在多模态环境中的探索仍未得到充分探索。最近的一些努力试图通过采用基于测地线距离的对比损失将欧几里得多模态学习技术转移到双曲空间。然而,我们从理论和经验上都表明,这种基于空间接近度的对比损失会严重破坏潜在空间中的层次结构。为了解决这个问题,我们主张跨模态表示应该接受文本和图像之间固有的模态差距,并引入一种不强制空间接近度的跨模态相似性测量新方法。我们的方法在保持单模态层次结构的同时,还表现出了卓越的能力。我们在一系列下游任务上的实验表明,我们的目标函数出现了更好的潜在结构,同时在文本到图像和图像到文本的检索任务中表现出色。