61 lines
3.0 KiB
Markdown
61 lines
3.0 KiB
Markdown
# 调研
|
||
看过的如[ASTR(2023)](https://astr2023.github.io "ASTR")、DeepMatcher(2024)、AmatFormer(2023)都是不开源的
|
||
|
||
而开源的如:
|
||
* [Roma](https://github.com/Parskatt/RoMa "Roma"):2024 cvpr,也是DKM的作者
|
||
* [DKM](https://github.com/Parskatt/DKM "DKM"):2023 cvpr
|
||
* **[LoFTR](https://zju3dv.github.io/loftr/ "LoFTR"):2021 cvpr,特征匹配领域比较基石的工作。Roma/DKM也使用其数据集,即MegaDepth和Scannet,这两个数据集是领域内用得较多的**
|
||
> LoFTR的训练/数据集配置 https://github.com/zju3dv/LoFTR/blob/master/docs/TRAINING.md
|
||
* [LightGlue](https://github.com/cvg/LightGlue):2023iccv
|
||
* [GlueStick](https://github.com/cvg/GlueStick?tab=readme-ov-file): 2023iccv
|
||
|
||
## 动机
|
||
不从整个特征匹配入手,尝试从小的方面切入,比如视觉定位、图像匹配等小方面。
|
||
|
||
## 数据集
|
||
1. LoFTR:HPatches,视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet)
|
||
> 代码上看其实只有 MegaDepth,Scannet相关的,没有 HPatches 和 InLoc 数据集相关的代码
|
||
|
||
|
||
2. DKM :HPatches,视觉定位(InLoc),图像匹配(IMC2022),相对姿态估计(MegaDepth,Scannet)
|
||
> 代码上看其实只有 MegaDepth,Scannet相关的,没有 IMC2022 和 InLoc 数据集相关的代码
|
||
|
||
3. ASTR:HPatches,视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet)
|
||
> 未开源
|
||
|
||
4. Roma:图像匹配(IMC2022),视觉定位(InLoc),相对姿态估计(MegaDepth,Scannet)
|
||
> 代码上看其实只有 MegaDepth,Scannet相关的,没有 IMC2022 和 InLoc 数据集相关的代码
|
||
5. LightGlue:HPatches,视觉定位(Aachen Day-Night),图像匹配(IMC),相对姿态估计(MegaDepth)
|
||
6. GlueStick: HPatches,ETH3D,视觉定位(7Scenes,InLoc),相对姿态估计(Scannet)
|
||
|
||
---
|
||
|
||
* MegaDepth ,887GB,https://www.cs.cornell.edu/projects/megadepth/
|
||
* Scannet ,1.3TB,需申请,https://github.com/ScanNet/ScanNet#scannet-data
|
||
---
|
||
* HPatches ,4.3GB,https://github.com/hpatches/hpatches-dataset
|
||
* IMC2021 ,~50GB, 是一个比赛,https://www.cs.ubc.ca/research/
|
||
image-matching-challenge/2021/
|
||
* InLoc ,应该不那么大,但是官方下载链接失效了
|
||
* Aachen Day-Night,~30GB, https://www.visuallocalization.net/datasets/
|
||
* 7Scenes ,~15GB,https://www.microsoft.com/en-us/research/project/rgb-d-dataset-7-scenes/
|
||
* ETH3D ,~30GB,https://www.eth3d.net/datasets
|
||
|
||
|
||
## 训练
|
||
主要是在MegaDepth,Scannet上。因为论文和代码中很少对其他数据集的提及。
|
||
|
||
Roma 、DKM:在4个 A100ti 上训练大约需要5天
|
||
|
||
LoFTR: 64个 1080ti 上1天
|
||
|
||
DeepMatcher:32个 Tesla V100
|
||
|
||
LightGlue:2个 RTX3090 上两天 + 200GB磁盘存储额外信息(MegaDepth)
|
||
|
||
GlueStick: 2个 RTX2080 上10天
|
||
|
||
## 后续
|
||
从小方面的数据集入手,通过paperswithcode网站找到数据集相关的特征匹配方面论文,感觉LigGlue和GlueStick可以尝试着手,后续再细了解下
|
||
|