# 调研 看过的如[ASTR(2023)](https://astr2023.github.io "ASTR")、DeepMatcher(2024)、AmatFormer(2023)都是不开源的 而开源的如: * [Roma](https://github.com/Parskatt/RoMa "Roma"):2024 cvpr,也是DKM的作者 * [DKM](https://github.com/Parskatt/DKM "DKM"):2023 cvpr * **[LoFTR](https://zju3dv.github.io/loftr/ "LoFTR"):2021 cvpr,特征匹配领域比较基石的工作。Roma/DKM也使用其数据集,即MegaDepth和Scannet,这两个数据集是领域内用得较多的** > LoFTR的训练/数据集配置 https://github.com/zju3dv/LoFTR/blob/master/docs/TRAINING.md * [LightGlue](https://github.com/cvg/LightGlue):2023iccv * [GlueStick](https://github.com/cvg/GlueStick?tab=readme-ov-file): 2023iccv ## 动机 不从整个特征匹配入手,尝试从小的方面切入,比如视觉定位、图像匹配等小方面。 ## 数据集 1. LoFTR:HPatches,视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet) > 代码上看其实只有 MegaDepth,Scannet相关的,没有 HPatches 和 InLoc 数据集相关的代码 2. DKM :HPatches,视觉定位(InLoc),图像匹配(IMC2022),相对姿态估计(MegaDepth,Scannet) > 代码上看其实只有 MegaDepth,Scannet相关的,没有 IMC2022 和 InLoc 数据集相关的代码 3. ASTR:HPatches,视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet) > 未开源 4. Roma:图像匹配(IMC2022),视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet) > 代码上看其实只有 MegaDepth,Scannet相关的,没有 IMC2022 和 InLoc 数据集相关的代码 5. LightGlue:HPatches,视觉定位(Aachen Day-Night),图像匹配(IMC),相对姿态估计(MegaDepth) 6. GlueStick: HPatches,ETH3D,视觉定位(7Scenes,InLoc),相对姿态估计(Scannet) --- * MegaDepth ,887GB,https://www.cs.cornell.edu/projects/megadepth/ * Scannet ,1.3TB,需申请,https://github.com/ScanNet/ScanNet#scannet-data --- * HPatches ,4.3GB,https://github.com/hpatches/hpatches-dataset * IMC2021 ,~50GB, 是一个比赛,https://www.cs.ubc.ca/research/ image-matching-challenge/2021/ * InLoc ,应该不那么大,但是官方下载链接失效了 * Aachen Day-Night,~30GB, https://www.visuallocalization.net/datasets/ * 7Scenes ,~15GB,https://www.microsoft.com/en-us/research/project/rgb-d-dataset-7-scenes/ * ETH3D ,~30GB,https://www.eth3d.net/datasets ## 训练 主要是在MegaDepth,Scannet上。因为论文和代码中很少对其他数据集的提及。 Roma 、DKM:在4个 A100ti 上训练大约需要5天 LoFTR: 64个 1080ti 上1天 DeepMatcher:32个 Tesla V100 LightGlue:2个 RTX3090 上两天 + 200GB磁盘存储额外信息(MegaDepth) GlueStick: 2个 RTX2080 上10天 ## 后续 从小方面的数据集入手,通过paperswithcode网站找到数据集相关的特征匹配方面论文,感觉LigGlue和GlueStick可以尝试着手,后续再细了解下