Report/Docs/2024-10-17/report_1017.md

# 2024-10-17感知智能组会汇报
# 一、近期工作
## 1.论文阅读
### 1）其他领域
* 在之前对于遮挡图像补全的探索上阅读了三维重建有关的Vid2Avatar和Wild2Avatar论文，试图对我们自己的方法进行启示。
* 三维重建方向的论文主要依赖于对象的几何轮廓，还需要使用三维信息，但我们是基于二维图像考虑，结合Wild2Avatar方法的思路，针对二维图像和MAE可以从以下部分进行考虑：
    * 由于二维图像中存在遮挡的不规则性，可以考虑边缘检测/轮廓提取对遮挡部分进行提取；
    * 利用二维图像中阴影层次，比如光照、纹理的变化，引入深度估计网络；
    * 引入语义，针对遮挡的部分或部位进行划分；
    * 引入注意力机制；
### 2）MAE相关
* 对之前所看过的MAE相关文章进行阅读，找是否可以直接使用的预训练模型。
    * MixMAE：针对两个图像进行输入变成混合图像，再将这两张图像分别重建，避免处理无效掩码区域：将遮挡/非遮挡图像进行输入，添加边缘检测模块，但可能和原文章结构不符；
    * UM-MAE：针对多尺度的特征，引入Pyramid-based ViT为编码器，使用单一输入：如果只使用遮挡后的图像，或许需要引入语义和注意力；
* 其他方面的论文还在探索

## 2.文章调研
针对近两年各大顶会和期刊寻找图像补全/语义补全/遮挡补全方向
大致着眼于：denoising、diffusion、image generation、image reconstruction、inpainting方面，目前针对网络结构的调研还在持续中

# 二、未来规划
## 1.文章调研
继续调研，完成对该类方向的信息搜索和整理收集
## 2.项目代码
按照上面的想法对预训练模型进行更改
## 3.反思思考
我们针对的方法是面向2D-image的生成，像Wild2Avatar方法是面向3D-video去进行遮挡部分的还原，主要设计三维重建方面的知识，需要利用各个角度下的三维位置信息和像素进行预测。

MAE相关的衍生方向有很多，关于很多下游任务也有实现，MAE只是一个预训练框架，可以进行改变。
* 着重研究：之前看过的几篇MAE有关的论文是怎么对MAE进行更改的，有什么不同之处，在什么方面进行了应用，实验是怎样的，参数量是怎样的
* 如果要将我们的方法和MAE进行结合，要怎么结合？

思考下可行性：
* 对Encoder的增强：在原先的基础上+特征提取器，比如边缘检测/深度估计，因为遮挡是不规则的
* 引入Attention：通过多层注意力机制处理全局上下文
* 结合Sub-task：语义分割、边缘检测。是否需要引入语义有关的模块来对图像中的类别进行更好分析
* 对数据的处理：data augmentation去模拟遮挡，噪声？人为遮挡？

使用子任务去复现：
* 加模块去看提升？——需要考虑下游任务吗？需要在遮挡行人重识别上去做吗？
* 考虑耗费的gpu资源

明确我们要做的具体目标是？
* 针对行人去做：前景和背景的分离？如果针对行人去做，是否需要对行人进行姿态估计？如何预测？
* 不针对行人，只泛指一般图像去做？