3.0 KiB
调研
看过的如ASTR(2023)、DeepMatcher(2024)、AmatFormer(2023)都是不开源的
而开源的如:
- Roma:2024 cvpr,也是DKM的作者
- DKM:2023 cvpr
- LoFTR:2021 cvpr,特征匹配领域比较基石的工作。Roma/DKM也使用其数据集,即MegaDepth和Scannet,这两个数据集是领域内用得较多的
LoFTR的训练/数据集配置 https://github.com/zju3dv/LoFTR/blob/master/docs/TRAINING.md
- LightGlue:2023iccv
- GlueStick: 2023iccv
动机
不从整个特征匹配入手,尝试从小的方面切入,比如视觉定位、图像匹配等小方面。
数据集
-
LoFTR:HPatches,视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet)
代码上看其实只有 MegaDepth,Scannet相关的,没有 HPatches 和 InLoc 数据集相关的代码
-
DKM :HPatches,视觉定位(InLoc),图像匹配(IMC2022),相对姿态估计(MegaDepth,Scannet)
代码上看其实只有 MegaDepth,Scannet相关的,没有 IMC2022 和 InLoc 数据集相关的代码
-
ASTR:HPatches,视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet)
未开源
-
Roma:图像匹配(IMC2022),视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet)
代码上看其实只有 MegaDepth,Scannet相关的,没有 IMC2022 和 InLoc 数据集相关的代码
-
LightGlue:HPatches,视觉定位(Aachen Day-Night),图像匹配(IMC),相对姿态估计(MegaDepth)
-
GlueStick: HPatches,ETH3D,视觉定位(7Scenes,InLoc),相对姿态估计(Scannet)
- MegaDepth ,887GB,https://www.cs.cornell.edu/projects/megadepth/
- Scannet ,1.3TB,需申请,https://github.com/ScanNet/ScanNet#scannet-data
- HPatches ,4.3GB,https://github.com/hpatches/hpatches-dataset
- IMC2021 ,~50GB, 是一个比赛,https://www.cs.ubc.ca/research/ image-matching-challenge/2021/
- InLoc ,应该不那么大,但是官方下载链接失效了
- Aachen Day-Night,~30GB, https://www.visuallocalization.net/datasets/
- 7Scenes ,~15GB,https://www.microsoft.com/en-us/research/project/rgb-d-dataset-7-scenes/
- ETH3D ,~30GB,https://www.eth3d.net/datasets
训练
主要是在MegaDepth,Scannet上。因为论文和代码中很少对其他数据集的提及。
Roma 、DKM:在4个 A100ti 上训练大约需要5天
LoFTR: 64个 1080ti 上1天
DeepMatcher:32个 Tesla V100
LightGlue:2个 RTX3090 上两天 + 200GB磁盘存储额外信息(MegaDepth)
GlueStick: 2个 RTX2080 上10天
后续
从小方面的数据集入手,通过paperswithcode网站找到数据集相关的特征匹配方面论文,感觉LigGlue和GlueStick可以尝试着手,后续再细了解下