Report/Docs/2024-10-25/DiffusionModelFamily.md

33 lines
3.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 2D-Generation
Stable Diffusion3《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》
![img.png](imgs/StableDiffusion3.png)
* 在线网站https://stability.ai/stablediffusion3
* 论文链接https://stability.ai/news/stable-diffusion-3-research-paper
* 模型链接https://stability.ai/news/stable-diffusion-3-medium
2024年2月22日Stability AI发布早期预览版的Stable Diffusion 3这是Stability AI性能最强大的文图生成模型大大提高了在多主题提示、图像质量和拼写能力方面的表现。
扩散模型通过反转数据到噪声的正向路径来从噪声中创建数据并已成为处理高维感知数据如图像和视频的强大生成建模技术。Rectified flow是一种最近提出的生成模型形式它将数据和噪声连接在一条直线上。尽管其具有更好的理论性质和概念上的简单性但它尚未被明确确定为标准实践。
# 3D-Generation
Wonder3D
* 论文链接https://arxiv.org/abs/2310.15008
* 代码链接https://github.com/xxlong0/Wonder3D
随着扩散模型的提出3D 生成领域取得了长足进步。从单张图片重建出 3D 几何是计算机图形学和 3D 视觉的基础任务,在 VR、游戏、3D 内容生成、机器人领域有广泛的应用。由于该任务是不适定的,需要推理出可见和不可见区域的 3D 几何结构。该种能力的构建需要大量的 3D 世界的知识。
部分工作(如 DreamField, DreamFusion, Magic3D需要通过 score distillation sampling 来蒸馏 2D 图像扩散模型或视觉语言模型的先验知识,从文本或图像创建出 3D 模型。尽管这些方法的结果很吸引人,但都面临着两个问题:效率和一致性。
效率问题:为了生成一个满意的 3D 模型,这些基于 SDS 的方法的优化过程通常需要数万次迭代,包括全图渲染和扩散模型的推理,导致每次形状优化可能需要几个小时。需要对每个候选形状进行多次迭代优化,每次迭代都需要评估和调整模型参数。
一致性问题2D 先验模型在每次迭代时只考虑一个视角,使得每个视角都接近于输入图像,这会造成生成的 3D 形状不一致,如 Janus 问题。
“Janus problem”雅努斯问题是在3D内容创建领域尤其是基于文本或图像提示生成3D模型时遇到的一个特定问题。这个问题通常指的是当使用2D图像扩散模型或视觉语言模型来生成3D模型时模型可能无法准确捕捉文本提示中特定视角的信息导致生成的3D模型在不同视图下出现不一致性例如一个物体的正面视图特征如面部或头部错误地出现在其他视图中从而产生多面或不一致的3D模型。
Wonder3D 的新方法,它是一种从单视图 3D 重建的新方法,与以往方法不同,这种方法侧重于生成多视图一致的法线贴图和彩色图像。为了解决保真度、一致性、泛化性和效率的问题,它用了一个跨域扩散模型,这是一种能同时处理两种不同类型数据(法线和颜色)的模型。核心思想是扩展 stable diffusion对两个不同域法线和色彩的协同分布来建模。Domain switcher 允许扩散模型根据需要生成法线贴图或彩色图像,增加了模型的灵活性。跨域注意力机制则在这两个域之间传递信息,提升生成图像的一致性和质量。为了从生成的视图中稳定地提取表面,作者提出了一种几何感知的法线融合算法。这种算法对不准确性具有鲁棒性,并能够重建干净、高质量的几何形状。
![img.png](imgs/Wonder3D.png)
# Video Generation
KLING
# NLP Tasks
SEDD