扩散模型SDXL(扩散模型是用来干什么的)
ztj100 2024-11-17 04:07 28 浏览 0 评论
文章首发微信公众号:小小cv笔记
论文题目:
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
1、简介
Stable Diffusion的升级版本,宣称是与以前版本的Stable Diffusion相比,SDXL的性能得到了极大的提高,但是实际上好像没有那么多
主要的改进点:
- 1)SDXL 使用了之前三倍大的 U-Net 作为主干网络,增加的参数包括:引入第二个文本编码器,更多的注意力块和更大的交叉注意力上下文。
- 2)增加两种调节技术,在多种大小和长宽比上优化模型训练。
- 3)增加了基于扩散的refine模块,应用于去噪过程,提高了生成样本的视觉保真度。
2、方法
1)Architecture & Scale
- 和Stable Diffusion相比,增大了unet参数,Transformer blocks数目和通道数,SDXL的UNet在空间维度最小的特征上使用数量较多的transformer block,提高计算效率。
- 将Text encoder 改进为CLIP ViT-L & OpenCLIP ViT-bigG,其中OpenCLIP ViT-bigG的特征维度为1280,而CLIP ViT-L/14的特征维度是768,两个特征concat在一起总的特征维度大小是2048,这也就是SDXL的context dim
- 2)Micro-Conditioning
- 问题1:数据利用效率低
大致意思就是现在的sd模型训练时先用256*256训练,再512*512训练,但是数据集中有很多图片分辨率小于256和512的,都会过滤掉,上图显示过滤256以下的图像丢掉了39%的训练样本
sdxl提出了一种图像原始尺寸嵌入的办法,实现和扩散模型timesteps的嵌入一样,先将width和height用傅立叶特征编码进行编码,然后将特征concat在一起加在time embedding上。
上图展示了采用这种方案得到的512x512模型当送入不同的size时的生成图像,模型学到了识别图像分辨率,当输入低分辨率时,生成的图像比较模糊,但是当提升size时,图像质量逐渐提升。
问题二:训练过程中的图像裁剪问题
训练的时候会根据短边尺寸然后crop,crop之后可能会出现重要信息被裁掉的情况,可以输入的训练样本没有头或者没有脚的情况,生成的图像也会出现这种情况
sdxl提出了一种将训练过程中裁剪的左上定点坐标作为条件注入办法,和图像原始尺寸嵌入的办法一样,裁剪的左上定点坐标用傅立叶特征编码进行编码,然后将特征concat在一起加在time embedding上,将这个坐标设置为(0, 0)就可以得到物体居中的图像
最后将两种条件注入混合训练,算法逻辑如下
3)Multi-Aspect Training
就是一种多尺度训练,各种尺度混合训练,满足各种尺寸的生成需要,效果也会更好
4)Improved Autoencoder
稳定扩散是一个LDM,在一个预训练的、学习的(和固定的)自编码器的潜在空间中工作。虽然大部分语义组合是由LDM完成的,但我们可以通过改进自编码器来改善生成图像中的局部高频细节。为此,我们以更大的批量(256 vs 9)训练用于原始稳定扩散的相同自编码器架构,并使用指数移动平均跟踪权重。所得的自动编码器在所有评估的重建指标中都优于原始模型,见表3。我们所有的实验都用这个自动编码器。
5)Refinement Stage
我们发现所得到的模型有时会产生低局部质量的样本,为了提高样本质量,我们在同一潜在空间中训练了一个单独的LDM,该LDM专门用于高质量、高分辨率的数据,并对来自基础模型的样本采用了SDEdit引入的噪声-去噪过程,并在前200个(离散的)噪声尺度上专门研究这个细化模型。
类似于级联优化,对于一个prompt,首先用base model生成latent,然后给这个latent加一定的噪音(采用扩散过程),并使用refiner model进行去噪。经过这样一个重新加噪再去噪的过程,图像的局部细节会有一定的提升,这一步是可选的,是不是再级联几个扩散模型效果更好呢?
6)Putting Everything Together
在多阶段的过程中训练最终模型SDXL。SDXL使用自编码器和1000步的离散时间扩散调度。首先,在一个内部数据集上预训练一个基本模型,以256 × 256像素的分辨率和2048个批大小为60万优化步,使用尺寸和crop尺寸条件注入,继续在512 × 512像素的图像上进行另外20万个优化步骤的训练,最后利用Multi-Aspect结合0.05的偏移噪声水平,在~ 1024 × 1024像素区域的不同宽高比上训练模型。
3 实验
1) SDXL with DeepFloyd IF, DALLE-2, Bing Image Creator, and Midjourneyv5.2
2)Comparison between SD 1.5 vs. SD 2.1 vs. SDXL
4 未来工作
?单阶段:目前,我们使用两阶段方法和额外的细化模型从SDXL生成最佳样本。这导致必须将两个大型模型加载到内存中,从而阻碍了可访问性和采样速度。今后的工作应研究提供同等或更好质量的单阶段的方法。
?文本合成:虽然规模和更大的文本编码器(OpenCLIP vitg - bigg)有助于提高文本渲染能力,但与以前版本的Stable Diffusion相比,合并字节级标记器或简单地将模型缩放到更大的尺寸可能会进一步改善文本合成。
?架构:在这项工作的探索阶段,我们简要地试验了基于transformer的架构,如UViT和DiT,但没有发现直接的好处。然而,我们仍然乐观地认为,仔细的超参数研究最终将能够扩展到更大的transformer主导的体系结构。
?蒸馏:虽然我们对原来的稳定扩散模型的改进是显著的,但它们是以增加推理成本为代价的(包括VRAM和采样速度)。因此,未来的工作将侧重于减少推理所需的计算,并提高采样速度,例如通过指导,知识和渐进蒸馏。
?我们的模型是在离散时间公式中训练的,并且需要偏移噪声来获得美观的结果。Karras等人的EDM框架是未来模型训练的一个很有前途的候选者,因为它在连续时间内的制定允许增加采样灵活性,并且不需要噪声调度校正。
- 上一篇:不用花钱学习AI了,SD模型及操作界面介绍!
- 下一篇:npm设置和查看仓库源
相关推荐
- sharding-jdbc实现`分库分表`与`读写分离`
-
一、前言本文将基于以下环境整合...
- 三分钟了解mysql中主键、外键、非空、唯一、默认约束是什么
-
在数据库中,数据表是数据库中最重要、最基本的操作对象,是数据存储的基本单位。数据表被定义为列的集合,数据在表中是按照行和列的格式来存储的。每一行代表一条唯一的记录,每一列代表记录中的一个域。...
- MySQL8行级锁_mysql如何加行级锁
-
MySQL8行级锁版本:8.0.34基本概念...
- mysql使用小技巧_mysql使用入门
-
1、MySQL中有许多很实用的函数,好好利用它们可以省去很多时间:group_concat()将取到的值用逗号连接,可以这么用:selectgroup_concat(distinctid)fr...
- MySQL/MariaDB中如何支持全部的Unicode?
-
永远不要在MySQL中使用utf8,并且始终使用utf8mb4。utf8mb4介绍MySQL/MariaDB中,utf8字符集并不是对Unicode的真正实现,即不是真正的UTF-8编码,因...
- 聊聊 MySQL Server 可执行注释,你懂了吗?
-
前言MySQLServer当前支持如下3种注释风格:...
- MySQL系列-源码编译安装(v5.7.34)
-
一、系统环境要求...
- MySQL的锁就锁住我啦!与腾讯大佬的技术交谈,是我小看它了
-
对酒当歌,人生几何!朝朝暮暮,唯有己脱。苦苦寻觅找工作之间,殊不知今日之事乃我心之痛,难道是我不配拥有工作嘛。自面试后他所谓的等待都过去一段时日,可惜在下京东上的小金库都要见低啦。每每想到不由心中一...
- MySQL字符问题_mysql中字符串的位置
-
中文写入乱码问题:我输入的中文编码是urf8的,建的库是urf8的,但是插入mysql总是乱码,一堆"???????????????????????"我用的是ibatis,终于找到原因了,我是这么解决...
- 深圳尚学堂:mysql基本sql语句大全(三)
-
数据开发-经典1.按姓氏笔画排序:Select*FromTableNameOrderByCustomerNameCollateChinese_PRC_Stroke_ci_as//从少...
- MySQL进行行级锁的?一会next-key锁,一会间隙锁,一会记录锁?
-
大家好,是不是很多人都对MySQL加行级锁的规则搞的迷迷糊糊,一会是next-key锁,一会是间隙锁,一会又是记录锁。坦白说,确实还挺复杂的,但是好在我找点了点规律,也知道如何如何用命令分析加...
- 一文讲清怎么利用Python Django实现Excel数据表的导入导出功能
-
摘要:Python作为一门简单易学且功能强大的编程语言,广受程序员、数据分析师和AI工程师的青睐。本文系统讲解了如何使用Python的Django框架结合openpyxl库实现Excel...
- 用DataX实现两个MySQL实例间的数据同步
-
DataXDataX使用Java实现。如果可以实现数据库实例之间准实时的...
- MySQL数据库知识_mysql数据库基础知识
-
MySQL是一种关系型数据库管理系统;那废话不多说,直接上自己以前学习整理文档:查看数据库命令:(1).查看存储过程状态:showprocedurestatus;(2).显示系统变量:show...
- 如何为MySQL中的JSON字段设置索引
-
背景MySQL在2015年中发布的5.7.8版本中首次引入了JSON数据类型。自此,它成了一种逃离严格列定义的方式,可以存储各种形状和大小的JSON文档,例如审计日志、配置信息、第三方数据包、用户自定...
你 发表评论:
欢迎- 一周热门
-
-
MySQL中这14个小玩意,让人眼前一亮!
-
旗舰机新标杆 OPPO Find X2系列正式发布 售价5499元起
-
【VueTorrent】一款吊炸天的qBittorrent主题,人人都可用
-
面试官:使用int类型做加减操作,是线程安全吗
-
C++编程知识:ToString()字符串转换你用正确了吗?
-
【Spring Boot】WebSocket 的 6 种集成方式
-
PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL
-
pytorch中的 scatter_()函数使用和详解
-
与 Java 17 相比,Java 21 究竟有多快?
-
基于TensorRT_LLM的大模型推理加速与OpenAI兼容服务优化
-
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)