扩散模型SDXL(扩散模型是用来干什么的)
ztj100 2024-11-17 04:07 18 浏览 0 评论
文章首发微信公众号:小小cv笔记
论文题目:
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
1、简介
Stable Diffusion的升级版本,宣称是与以前版本的Stable Diffusion相比,SDXL的性能得到了极大的提高,但是实际上好像没有那么多
主要的改进点:
- 1)SDXL 使用了之前三倍大的 U-Net 作为主干网络,增加的参数包括:引入第二个文本编码器,更多的注意力块和更大的交叉注意力上下文。
- 2)增加两种调节技术,在多种大小和长宽比上优化模型训练。
- 3)增加了基于扩散的refine模块,应用于去噪过程,提高了生成样本的视觉保真度。
2、方法
1)Architecture & Scale
- 和Stable Diffusion相比,增大了unet参数,Transformer blocks数目和通道数,SDXL的UNet在空间维度最小的特征上使用数量较多的transformer block,提高计算效率。
- 将Text encoder 改进为CLIP ViT-L & OpenCLIP ViT-bigG,其中OpenCLIP ViT-bigG的特征维度为1280,而CLIP ViT-L/14的特征维度是768,两个特征concat在一起总的特征维度大小是2048,这也就是SDXL的context dim
- 2)Micro-Conditioning
- 问题1:数据利用效率低
大致意思就是现在的sd模型训练时先用256*256训练,再512*512训练,但是数据集中有很多图片分辨率小于256和512的,都会过滤掉,上图显示过滤256以下的图像丢掉了39%的训练样本
sdxl提出了一种图像原始尺寸嵌入的办法,实现和扩散模型timesteps的嵌入一样,先将width和height用傅立叶特征编码进行编码,然后将特征concat在一起加在time embedding上。
上图展示了采用这种方案得到的512x512模型当送入不同的size时的生成图像,模型学到了识别图像分辨率,当输入低分辨率时,生成的图像比较模糊,但是当提升size时,图像质量逐渐提升。
问题二:训练过程中的图像裁剪问题
训练的时候会根据短边尺寸然后crop,crop之后可能会出现重要信息被裁掉的情况,可以输入的训练样本没有头或者没有脚的情况,生成的图像也会出现这种情况
sdxl提出了一种将训练过程中裁剪的左上定点坐标作为条件注入办法,和图像原始尺寸嵌入的办法一样,裁剪的左上定点坐标用傅立叶特征编码进行编码,然后将特征concat在一起加在time embedding上,将这个坐标设置为(0, 0)就可以得到物体居中的图像
最后将两种条件注入混合训练,算法逻辑如下
3)Multi-Aspect Training
就是一种多尺度训练,各种尺度混合训练,满足各种尺寸的生成需要,效果也会更好
4)Improved Autoencoder
稳定扩散是一个LDM,在一个预训练的、学习的(和固定的)自编码器的潜在空间中工作。虽然大部分语义组合是由LDM完成的,但我们可以通过改进自编码器来改善生成图像中的局部高频细节。为此,我们以更大的批量(256 vs 9)训练用于原始稳定扩散的相同自编码器架构,并使用指数移动平均跟踪权重。所得的自动编码器在所有评估的重建指标中都优于原始模型,见表3。我们所有的实验都用这个自动编码器。
5)Refinement Stage
我们发现所得到的模型有时会产生低局部质量的样本,为了提高样本质量,我们在同一潜在空间中训练了一个单独的LDM,该LDM专门用于高质量、高分辨率的数据,并对来自基础模型的样本采用了SDEdit引入的噪声-去噪过程,并在前200个(离散的)噪声尺度上专门研究这个细化模型。
类似于级联优化,对于一个prompt,首先用base model生成latent,然后给这个latent加一定的噪音(采用扩散过程),并使用refiner model进行去噪。经过这样一个重新加噪再去噪的过程,图像的局部细节会有一定的提升,这一步是可选的,是不是再级联几个扩散模型效果更好呢?
6)Putting Everything Together
在多阶段的过程中训练最终模型SDXL。SDXL使用自编码器和1000步的离散时间扩散调度。首先,在一个内部数据集上预训练一个基本模型,以256 × 256像素的分辨率和2048个批大小为60万优化步,使用尺寸和crop尺寸条件注入,继续在512 × 512像素的图像上进行另外20万个优化步骤的训练,最后利用Multi-Aspect结合0.05的偏移噪声水平,在~ 1024 × 1024像素区域的不同宽高比上训练模型。
3 实验
1) SDXL with DeepFloyd IF, DALLE-2, Bing Image Creator, and Midjourneyv5.2
2)Comparison between SD 1.5 vs. SD 2.1 vs. SDXL
4 未来工作
?单阶段:目前,我们使用两阶段方法和额外的细化模型从SDXL生成最佳样本。这导致必须将两个大型模型加载到内存中,从而阻碍了可访问性和采样速度。今后的工作应研究提供同等或更好质量的单阶段的方法。
?文本合成:虽然规模和更大的文本编码器(OpenCLIP vitg - bigg)有助于提高文本渲染能力,但与以前版本的Stable Diffusion相比,合并字节级标记器或简单地将模型缩放到更大的尺寸可能会进一步改善文本合成。
?架构:在这项工作的探索阶段,我们简要地试验了基于transformer的架构,如UViT和DiT,但没有发现直接的好处。然而,我们仍然乐观地认为,仔细的超参数研究最终将能够扩展到更大的transformer主导的体系结构。
?蒸馏:虽然我们对原来的稳定扩散模型的改进是显著的,但它们是以增加推理成本为代价的(包括VRAM和采样速度)。因此,未来的工作将侧重于减少推理所需的计算,并提高采样速度,例如通过指导,知识和渐进蒸馏。
?我们的模型是在离散时间公式中训练的,并且需要偏移噪声来获得美观的结果。Karras等人的EDM框架是未来模型训练的一个很有前途的候选者,因为它在连续时间内的制定允许增加采样灵活性,并且不需要噪声调度校正。
- 上一篇:不用花钱学习AI了,SD模型及操作界面介绍!
- 下一篇:npm设置和查看仓库源
相关推荐
- 再说圆的面积-蒙特卡洛(蒙特卡洛方法求圆周率的matlab程序)
-
在微积分-圆的面积和周长(1)介绍微积分方法求解圆的面积,本文使用蒙特卡洛方法求解圆面积。...
- python创建分类器小结(pytorch分类数据集创建)
-
简介:分类是指利用数据的特性将其分成若干类型的过程。监督学习分类器就是用带标记的训练数据建立一个模型,然后对未知数据进行分类。...
- matplotlib——绘制散点图(matplotlib散点图颜色和图例)
-
绘制散点图不同条件(维度)之间的内在关联关系观察数据的离散聚合程度...
- python实现实时绘制数据(python如何绘制)
-
方法一importmatplotlib.pyplotaspltimportnumpyasnpimporttimefrommathimport*plt.ion()#...
- 简单学Python——matplotlib库3——绘制散点图
-
前面我们学习了用matplotlib绘制折线图,今天我们学习绘制散点图。其实简单的散点图与折线图的语法基本相同,只是作图函数由plot()变成了scatter()。下面就绘制一个散点图:import...
- 数据分析-相关性分析可视化(相关性分析数据处理)
-
前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考...
- 免费Python机器学习课程一:线性回归算法
-
学习线性回归的概念并从头开始在python中开发完整的线性回归算法最基本的机器学习算法必须是具有单个变量的线性回归算法。如今,可用的高级机器学习算法,库和技术如此之多,以至于线性回归似乎并不重要。但是...
- 用Python进行机器学习(2)之逻辑回归
-
前面介绍了线性回归,本次介绍的是逻辑回归。逻辑回归虽然名字里面带有“回归”两个字,但是它是一种分类算法,通常用于解决二分类问题,比如某个邮件是否是广告邮件,比如某个评价是否为正向的评价。逻辑回归也可以...
- 【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂
-
一、拟合和回归的区别拟合...
- 推荐2个十分好用的pandas数据探索分析神器
-
作者:俊欣来源:关于数据分析与可视化...
- 向量数据库:解锁大模型记忆的关键!选型指南+实战案例全解析
-
本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在...
- 用Python进行机器学习(11)-主成分分析PCA
-
我们在机器学习中有时候需要处理很多个参数,但是这些参数有时候彼此之间是有着各种关系的,这个时候我们就会想:是否可以找到一种方式来降低参数的个数呢?这就是今天我们要介绍的主成分分析,英文是Princip...
- 神经网络基础深度解析:从感知机到反向传播
-
本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在...
- Python实现基于机器学习的RFM模型
-
CDA数据分析师出品作者:CDALevelⅠ持证人岗位:数据分析师行业:大数据...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)