百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

扩散模型SDXL(扩散模型是用来干什么的)

ztj100 2024-11-17 04:07 20 浏览 0 评论

文章首发微信公众号:小小cv笔记

论文题目:

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

1、简介

Stable Diffusion的升级版本,宣称是与以前版本的Stable Diffusion相比,SDXL的性能得到了极大的提高,但是实际上好像没有那么多

主要的改进点:

  • 1)SDXL 使用了之前三倍大的 U-Net 作为主干网络,增加的参数包括:引入第二个文本编码器,更多的注意力块和更大的交叉注意力上下文。
  • 2)增加两种调节技术,在多种大小和长宽比上优化模型训练。
  • 3)增加了基于扩散的refine模块,应用于去噪过程,提高了生成样本的视觉保真度。


2、方法

1)Architecture & Scale

    • 和Stable Diffusion相比,增大了unet参数,Transformer blocks数目和通道数,SDXL的UNet在空间维度最小的特征上使用数量较多的transformer block,提高计算效率。
    • 将Text encoder 改进为CLIP ViT-L & OpenCLIP ViT-bigG,其中OpenCLIP ViT-bigG的特征维度为1280,而CLIP ViT-L/14的特征维度是768,两个特征concat在一起总的特征维度大小是2048,这也就是SDXL的context dim
  • 2)Micro-Conditioning
  • 问题1:数据利用效率低

大致意思就是现在的sd模型训练时先用256*256训练,再512*512训练,但是数据集中有很多图片分辨率小于256和512的,都会过滤掉,上图显示过滤256以下的图像丢掉了39%的训练样本

sdxl提出了一种图像原始尺寸嵌入的办法,实现和扩散模型timesteps的嵌入一样,先将width和height用傅立叶特征编码进行编码,然后将特征concat在一起加在time embedding上。

上图展示了采用这种方案得到的512x512模型当送入不同的size时的生成图像,模型学到了识别图像分辨率,当输入低分辨率时,生成的图像比较模糊,但是当提升size时,图像质量逐渐提升。

问题二:训练过程中的图像裁剪问题

训练的时候会根据短边尺寸然后crop,crop之后可能会出现重要信息被裁掉的情况,可以输入的训练样本没有头或者没有脚的情况,生成的图像也会出现这种情况

sdxl提出了一种将训练过程中裁剪的左上定点坐标作为条件注入办法,和图像原始尺寸嵌入的办法一样,裁剪的左上定点坐标用傅立叶特征编码进行编码,然后将特征concat在一起加在time embedding上,将这个坐标设置为(0, 0)就可以得到物体居中的图像

最后将两种条件注入混合训练,算法逻辑如下

3)Multi-Aspect Training

就是一种多尺度训练,各种尺度混合训练,满足各种尺寸的生成需要,效果也会更好

4)Improved Autoencoder

稳定扩散是一个LDM,在一个预训练的、学习的(和固定的)自编码器的潜在空间中工作。虽然大部分语义组合是由LDM完成的,但我们可以通过改进自编码器来改善生成图像中的局部高频细节。为此,我们以更大的批量(256 vs 9)训练用于原始稳定扩散的相同自编码器架构,并使用指数移动平均跟踪权重。所得的自动编码器在所有评估的重建指标中都优于原始模型,见表3。我们所有的实验都用这个自动编码器。

5)Refinement Stage

我们发现所得到的模型有时会产生低局部质量的样本,为了提高样本质量,我们在同一潜在空间中训练了一个单独的LDM,该LDM专门用于高质量、高分辨率的数据,并对来自基础模型的样本采用了SDEdit引入的噪声-去噪过程,并在前200个(离散的)噪声尺度上专门研究这个细化模型。

类似于级联优化,对于一个prompt,首先用base model生成latent,然后给这个latent加一定的噪音(采用扩散过程),并使用refiner model进行去噪。经过这样一个重新加噪再去噪的过程,图像的局部细节会有一定的提升,这一步是可选的,是不是再级联几个扩散模型效果更好呢?

6)Putting Everything Together

在多阶段的过程中训练最终模型SDXL。SDXL使用自编码器和1000步的离散时间扩散调度。首先,在一个内部数据集上预训练一个基本模型,以256 × 256像素的分辨率和2048个批大小为60万优化步,使用尺寸和crop尺寸条件注入,继续在512 × 512像素的图像上进行另外20万个优化步骤的训练,最后利用Multi-Aspect结合0.05的偏移噪声水平,在~ 1024 × 1024像素区域的不同宽高比上训练模型。

3 实验

1) SDXL with DeepFloyd IF, DALLE-2, Bing Image Creator, and Midjourneyv5.2

2)Comparison between SD 1.5 vs. SD 2.1 vs. SDXL

4 未来工作

?单阶段:目前,我们使用两阶段方法和额外的细化模型从SDXL生成最佳样本。这导致必须将两个大型模型加载到内存中,从而阻碍了可访问性和采样速度。今后的工作应研究提供同等或更好质量的单阶段的方法。

?文本合成:虽然规模和更大的文本编码器(OpenCLIP vitg - bigg)有助于提高文本渲染能力,但与以前版本的Stable Diffusion相比,合并字节级标记器或简单地将模型缩放到更大的尺寸可能会进一步改善文本合成。

?架构:在这项工作的探索阶段,我们简要地试验了基于transformer的架构,如UViT和DiT,但没有发现直接的好处。然而,我们仍然乐观地认为,仔细的超参数研究最终将能够扩展到更大的transformer主导的体系结构。

?蒸馏:虽然我们对原来的稳定扩散模型的改进是显著的,但它们是以增加推理成本为代价的(包括VRAM和采样速度)。因此,未来的工作将侧重于减少推理所需的计算,并提高采样速度,例如通过指导,知识和渐进蒸馏。

?我们的模型是在离散时间公式中训练的,并且需要偏移噪声来获得美观的结果。Karras等人的EDM框架是未来模型训练的一个很有前途的候选者,因为它在连续时间内的制定允许增加采样灵活性,并且不需要噪声调度校正。

相关推荐

使用Python编写Ping监测程序(python 测验)

Ping是一种常用的网络诊断工具,它可以测试两台计算机之间的连通性;如果您需要监测某个IP地址的连通情况,可以使用Python编写一个Ping监测程序;本文将介绍如何使用Python编写Ping监测程...

批量ping!有了这个小工具,python再也香不了一点

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部下午好,我的网工朋友。在咱们网工的日常工作中,经常需要检测多个IP地址的连通性。不知道你是否也有这样的经历:对着电脑屏...

python之ping主机(python获取ping结果)

#coding=utf-8frompythonpingimportpingforiinrange(100,255):ip='192.168.1.'+...

网站安全提速秘籍!Nginx配置HTTPS+反向代理实战指南

太好了,你直接问到重点场景了:Nginx+HTTPS+反向代理,这个组合是现代Web架构中最常见的一种部署方式。咱们就从理论原理→实操配置→常见问题排查→高级玩法一层层剖开说,...

Vue开发中使用iframe(vue 使用iframe)

内容:iframe全屏显示...

Vue3项目实践-第五篇(改造登录页-Axios模拟请求数据)

本文将介绍以下内容:项目中的public目录和访问静态资源文件的方法使用json文件代替http模拟请求使用Axios直接访问json文件改造登录页,配合Axios进行登录请求,并...

Vue基础四——Vue-router配置子路由

我们上节课初步了解Vue-router的初步知识,也学会了基本的跳转,那我们这节课学习一下子菜单的路由方式,也叫子路由。子路由的情况一般用在一个页面有他的基础模版,然后它下面的页面都隶属于这个模版,只...

Vue3.0权限管理实现流程【实践】(vue权限管理系统教程)

作者:lxcan转发链接:https://segmentfault.com/a/1190000022431839一、整体思路...

swiper在vue中正确的使用方法(vue中如何使用swiper)

swiper是网页中非常强大的一款轮播插件,说是轮播插件都不恰当,因为它能做的事情太多了,swiper在vue下也是能用的,需要依赖专门的vue-swiper插件,因为vue是没有操作dom的逻辑的,...

Vue怎么实现权限管理?控制到按钮级别的权限怎么做?

在Vue项目中实现权限管理,尤其是控制到按钮级别的权限控制,通常包括以下几个方面:一、权限管理的层级划分...

【Vue3】保姆级毫无废话的进阶到实战教程 - 01

作为一个React、Vue双修选手,在Vue3逐渐稳定下来之后,是时候摸摸Vue3了。Vue3的变化不可谓不大,所以,本系列主要通过对Vue3中的一些BigChanges做...

Vue3开发极简入门(13):编程式导航路由

前面几节文章,写的都是配置路由。但是在实际项目中,下面这种路由导航的写法才是最常用的:比如登录页面,服务端校验成功后,跳转至系统功能页面;通过浏览器输入URL直接进入系统功能页面后,读取本地存储的To...

vue路由同页面重定向(vue路由重定向到外部url)

在Vue中,可以使用路由的重定向功能来实现同页面的重定向。首先,在路由配置文件(通常是`router/index.js`)中,定义一个新的路由,用于重定向到同一个页面。例如,我们可以定义一个名为`Re...

那个 Vue 的路由,路由是干什么用的?

在Vue里,路由就像“页面导航的指挥官”,专门负责管理页面(组件)的切换和显示逻辑。简单来说,它能让单页应用(SPA)像多页应用一样实现“不同URL对应不同页面”的效果,但整个过程不会刷新网页。一、路...

Vue3项目投屏功能开发!(vue投票功能)

最近接了个大屏项目,产品想在不同的显示器上展示大屏项目不同的页面,做出来的效果图大概长这样...

取消回复欢迎 发表评论: