更新 cvpr2024_analysis.md
parent
a8f887c1d2
commit
d05c28e845
|
@ -129,10 +129,6 @@
|
||||||
**网址**: https://cvpr.thecvf.com/virtual/2024/poster/31218
|
**网址**: https://cvpr.thecvf.com/virtual/2024/poster/31218
|
||||||
**摘要**: 视觉语言 (VL) 模型已成为研究的焦点,推动了多模态推理的显著进步。这些架构通常包括视觉编码器、大型语言模型 (LLM) 和将视觉特征与 LLM 的表示空间对齐的投影模块。尽管它们取得了成功,但仍存在一个关键的限制:视觉编码过程仍然与用户查询脱钩,通常以与图像相关的问题的形式出现。因此,生成的视觉特征可能无法最佳地适应图像的查询特定元素。为了解决这个问题,我们引入了 QA-ViT,这是一种用于多模态推理的问题感知视觉Transformers方法,它将问题感知直接嵌入视觉编码器中。这种集成会产生动态视觉特征,专注于与提出的问题相关的图像方面。QA-ViT 与模型无关,可以有效地整合到任何 VL 架构中。大量实验证明了将我们的方法应用于各种多模态架构的有效性,从而导致跨不同任务的持续改进,并展示了其增强视觉和场景文本理解的潜力。
|
**摘要**: 视觉语言 (VL) 模型已成为研究的焦点,推动了多模态推理的显著进步。这些架构通常包括视觉编码器、大型语言模型 (LLM) 和将视觉特征与 LLM 的表示空间对齐的投影模块。尽管它们取得了成功,但仍存在一个关键的限制:视觉编码过程仍然与用户查询脱钩,通常以与图像相关的问题的形式出现。因此,生成的视觉特征可能无法最佳地适应图像的查询特定元素。为了解决这个问题,我们引入了 QA-ViT,这是一种用于多模态推理的问题感知视觉Transformers方法,它将问题感知直接嵌入视觉编码器中。这种集成会产生动态视觉特征,专注于与提出的问题相关的图像方面。QA-ViT 与模型无关,可以有效地整合到任何 VL 架构中。大量实验证明了将我们的方法应用于各种多模态架构的有效性,从而导致跨不同任务的持续改进,并展示了其增强视觉和场景文本理解的潜力。
|
||||||
|
|
||||||
### A Pedestrian is Worth One Prompt: Towards Language Guidance Person Re-Identification
|
|
||||||
**中文翻译名**: 类别:ReID
|
|
||||||
**网址**: https://cvpr.thecvf.com/virtual/2024/poster/29372
|
|
||||||
**摘要**: 机器学习的最新进展凸显了双曲空间的潜力,因为它们可以有效地学习分层特征表示。虽然在单模态环境中利用双曲空间方面取得了进展,但在多模态环境中的探索仍未得到充分探索。最近的一些努力试图通过采用基于测地线距离的对比损失将欧几里得多模态学习技术转移到双曲空间。然而,我们从理论和经验上都表明,这种基于空间接近度的对比损失会严重破坏潜在空间中的层次结构。为了解决这个问题,我们主张跨模态表示应该接受文本和图像之间固有的模态差距,并引入一种不强制空间接近度的跨模态相似性测量新方法。我们的方法在保持单模态层次结构的同时,还表现出了卓越的能力。我们在一系列下游任务上的实验表明,我们的目标函数出现了更好的潜在结构,同时在文本到图像和图像到文本的检索任务中表现出色。
|
|
||||||
|
|
||||||
### Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
|
### Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
|
||||||
**中文翻译名**: Chat-UniVi:统一的视觉表征为大型语言模型提供图像和视频理解能力
|
**中文翻译名**: Chat-UniVi:统一的视觉表征为大型语言模型提供图像和视频理解能力
|
||||||
|
@ -151,3 +147,9 @@
|
||||||
**网址**: https://cvpr.thecvf.com/virtual/2024/poster/31293
|
**网址**: https://cvpr.thecvf.com/virtual/2024/poster/31293
|
||||||
**摘要**: 即使物体部分隐藏在视野之外,我们的大脑也能毫不费力地识别它们。看到隐藏物体的可见部分被称为非模态补全;然而,尽管进展迅速,这项任务对于生成式人工智能来说仍然是一个挑战。我们建议避开现有方法的许多困难,这些方法通常涉及预测非模态掩码然后生成像素的两步过程。我们的方法需要跳出思维定式,真的!我们跳出物体边界框,利用其上下文来指导预先训练的扩散修复模型,然后逐步扩大被遮挡的物体并修剪多余的背景。我们克服了两个技术挑战:1) 如何摆脱不必要的共现偏差,这种偏差往往会重新生成类似的遮挡物,2) 如何判断非模态补全是否成功。与众多成功补全案例中的现有方法相比,我们的非模态补全方法表现出更好的照片级真实感补全结果。最好的部分是什么?它不需要任何特殊的训练或模型微调。
|
**摘要**: 即使物体部分隐藏在视野之外,我们的大脑也能毫不费力地识别它们。看到隐藏物体的可见部分被称为非模态补全;然而,尽管进展迅速,这项任务对于生成式人工智能来说仍然是一个挑战。我们建议避开现有方法的许多困难,这些方法通常涉及预测非模态掩码然后生成像素的两步过程。我们的方法需要跳出思维定式,真的!我们跳出物体边界框,利用其上下文来指导预先训练的扩散修复模型,然后逐步扩大被遮挡的物体并修剪多余的背景。我们克服了两个技术挑战:1) 如何摆脱不必要的共现偏差,这种偏差往往会重新生成类似的遮挡物,2) 如何判断非模态补全是否成功。与众多成功补全案例中的现有方法相比,我们的非模态补全方法表现出更好的照片级真实感补全结果。最好的部分是什么?它不需要任何特殊的训练或模型微调。
|
||||||
|
|
||||||
|
## ReID
|
||||||
|
|
||||||
|
### A Pedestrian is Worth One Prompt: Towards Language Guidance Person Re-Identification
|
||||||
|
**中文翻译名**: 一个行人值一个提示:面向语言指导的人员重新识别
|
||||||
|
**网址**: https://cvpr.thecvf.com/virtual/2024/poster/29372
|
||||||
|
**摘要**: 机器学习的最新进展凸显了双曲空间的潜力,因为它们可以有效地学习分层特征表示。虽然在单模态环境中利用双曲空间方面取得了进展,但在多模态环境中的探索仍未得到充分探索。最近的一些努力试图通过采用基于测地线距离的对比损失将欧几里得多模态学习技术转移到双曲空间。然而,我们从理论和经验上都表明,这种基于空间接近度的对比损失会严重破坏潜在空间中的层次结构。为了解决这个问题,我们主张跨模态表示应该接受文本和图像之间固有的模态差距,并引入一种不强制空间接近度的跨模态相似性测量新方法。我们的方法在保持单模态层次结构的同时,还表现出了卓越的能力。我们在一系列下游任务上的实验表明,我们的目标函数出现了更好的潜在结构,同时在文本到图像和图像到文本的检索任务中表现出色。
|
Loading…
Reference in New Issue