Report/Docs/2024-10-25/DiffusionModelFamily.md

# 2D-Generation
    Stable Diffusion3：《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》
![img.png](imgs/StableDiffusion3.png)
* 在线网站：https://stability.ai/stablediffusion3
* 论文链接：https://stability.ai/news/stable-diffusion-3-research-paper
* 模型链接：https://stability.ai/news/stable-diffusion-3-medium
2024年2月22日，Stability AI发布早期预览版的Stable Diffusion 3，这是Stability AI性能最强大的文图生成模型，大大提高了在多主题提示、图像质量和拼写能力方面的表现。

扩散模型通过反转数据到噪声的正向路径来从噪声中创建数据，并已成为处理高维感知数据（如图像和视频）的强大生成建模技术。Rectified flow是一种最近提出的生成模型形式，它将数据和噪声连接在一条直线上。尽管其具有更好的理论性质和概念上的简单性，但它尚未被明确确定为标准实践。

# 3D-Generation
    Wonder3D
* 论文链接：https://arxiv.org/abs/2310.15008
* 代码链接：https://github.com/xxlong0/Wonder3D

随着扩散模型的提出，3D 生成领域取得了长足进步。从单张图片重建出 3D 几何是计算机图形学和 3D 视觉的基础任务，在 VR、游戏、3D 内容生成、机器人领域有广泛的应用。由于该任务是不适定的，需要推理出可见和不可见区域的 3D 几何结构。该种能力的构建需要大量的 3D 世界的知识。

部分工作（如 DreamField, DreamFusion, Magic3D）需要通过 score distillation sampling 来蒸馏 2D 图像扩散模型或视觉语言模型的先验知识，从文本或图像创建出 3D 模型。尽管这些方法的结果很吸引人，但都面临着两个问题：效率和一致性。

效率问题：为了生成一个满意的 3D 模型，这些基于 SDS 的方法的优化过程通常需要数万次迭代，包括全图渲染和扩散模型的推理，导致每次形状优化可能需要几个小时。需要对每个候选形状进行多次迭代优化，每次迭代都需要评估和调整模型参数。
一致性问题：2D 先验模型在每次迭代时只考虑一个视角，使得每个视角都接近于输入图像，这会造成生成的 3D 形状不一致，如 Janus 问题。

    “Janus problem”（雅努斯问题）是在3D内容创建领域，尤其是基于文本或图像提示生成3D模型时遇到的一个特定问题。这个问题通常指的是，当使用2D图像扩散模型或视觉语言模型来生成3D模型时，模型可能无法准确捕捉文本提示中特定视角的信息，导致生成的3D模型在不同视图下出现不一致性，例如，一个物体的正面视图特征（如面部或头部）错误地出现在其他视图中，从而产生多面或不一致的3D模型。

Wonder3D 的新方法，它是一种从单视图 3D 重建的新方法，与以往方法不同，这种方法侧重于生成多视图一致的法线贴图和彩色图像。为了解决保真度、一致性、泛化性和效率的问题，它用了一个跨域扩散模型，这是一种能同时处理两种不同类型数据（法线和颜色）的模型。核心思想是扩展 stable diffusion，对两个不同域（法线和色彩）的协同分布来建模。Domain switcher 允许扩散模型根据需要生成法线贴图或彩色图像，增加了模型的灵活性。跨域注意力机制则在这两个域之间传递信息，提升生成图像的一致性和质量。为了从生成的视图中稳定地提取表面，作者提出了一种几何感知的法线融合算法。这种算法对不准确性具有鲁棒性，并能够重建干净、高质量的几何形状。

![img.png](imgs/Wonder3D.png)

# Video Generation
    KLING

# NLP Tasks
    SEDD