2024-10-17感知智能组会汇报

一、近期工作

在之前对于遮挡图像补全的探索上阅读了三维重建有关的Vid2Avatar和Wild2Avatar论文，试图对我们自己的方法进行启示。
三维重建方向的论文主要依赖于对象的几何轮廓，还需要使用三维信息，但我们是基于二维图像考虑，结合Wild2Avatar方法的思路，针对二维图像和MAE可以从以下部分进行考虑：
- 由于二维图像中存在遮挡的不规则性，可以考虑边缘检测/轮廓提取对遮挡部分进行提取；
- 利用二维图像中阴影层次，比如光照、纹理的变化，引入深度估计网络；
- 引入语义，针对遮挡的部分或部位进行划分；
- 引入注意力机制；

对之前所看过的MAE相关文章进行阅读，找是否可以直接使用的预训练模型。
- MixMAE：针对两个图像进行输入变成混合图像，再将这两张图像分别重建，避免处理无效掩码区域：将遮挡/非遮挡图像进行输入，添加边缘检测模块，但可能和原文章结构不符；
- UM-MAE：针对多尺度的特征，引入Pyramid-based ViT为编码器，使用单一输入：如果只使用遮挡后的图像，或许需要引入语义和注意力；
其他方面的论文还在探索

针对近两年各大顶会和期刊寻找图像补全/语义补全/遮挡补全方向大致着眼于：denoising、diffusion、image generation、image reconstruction、inpainting方面，目前针对网络结构的调研还在持续中

继续调研，完成对该类方向的信息搜索和整理收集

按照上面的想法对预训练模型进行更改

我们针对的方法是面向2D-image的生成，像Wild2Avatar方法是面向3D-video去进行遮挡部分的还原，主要设计三维重建方面的知识，需要利用各个角度下的三维位置信息和像素进行预测。

MAE相关的衍生方向有很多，关于很多下游任务也有实现，MAE只是一个预训练框架，可以进行改变。

思考下可行性：

使用子任务去复现：

明确我们要做的具体目标是？