「小白学PyTorch」7 transforms常用API
ztj100 2024-10-31 16:13 179 浏览 0 评论
参考目录:
- 1 基本函数
- 1.1 Compose
- 1.2 RandomChoice
- 1.3 RandomOrder
- 2 PIL上的操作
- 2.1 中心切割CenterCrop
- 2.2 随机切割RandomCrop
- 2.3 随机比例切割
- 2.4 颜色震颤ColorJitter
- 2.5 随机旋转RandomRotation
- 2.6 灰度化Grayscale
- 2.7 size
- 2.8 概率随机(常用)
- 3 Tensor上的操作
- 3.1 标准化Normalize
- 4 PIL,Tensor转换函数
- 4.1 ToPILImage
- 4.2 ToTensor
- 5 案例代码分析
老样子,先看官方对torchvision.transforms的介绍:
这个Transforms是常见的图像的转换(包含图像增强等), 然后不同的transforms可以通过Compose函数连接起来(类似于Sequence把网络层连接起来一样的感觉)。后面的是关于图像分割任务了的介绍,因为入门PyTorch主要是图像分类,所以后面先不提了。
1 基本函数
1.1 Compose
【代码】
torchvision.transforms.Compose(transforms)
【介绍】
将不同的transform压缩在一起,这是非常重要的函数
【代码举例】
transforms.Compose([
transforms.CenterCrop(10),
transforms.ToTensor(),
])
1.2 RandomChoice
【代码】
torchvision.transforms.RandomChoice(transforms)
【介绍】
用法和Compose相同,是在transform的list中随机选择1个transform进行执行。
1.3 RandomOrder
【代码】
torchvision.transforms.RandomOrder(transforms)
【介绍】
用法和Compose相同,是乱序list中的transform。
之前的课程提到了,在torchvision官方的数据集中,提供的数据是PIL格式的数据,然后我们需要转成FloatTensor形式的数据。因此这里图像增强的处理也分成在PIL图片上操作的和在FloatTensor张量上操作的两种。
2 PIL上的操作
2.1 中心切割CenterCrop
【代码】
torchvision.transforms.CenterCrop(size)
【介绍】
以PIL图片中心为中心,进行图片切割。比较常用
【参数】size (sequence or int) – 想要切割出多大的图片。如果size是一个整数,那么就切割一个正方形;如果是一个(height,width)的tuple,那么就切割一个长方形。
【代码举例】
transforms.Compose([
transforms.CenterCrop(10),
transforms.ToTensor(),
])
2.2 随机切割RandomCrop
【代码】
torchvision.transforms.RandomCrop(size, padding=None, pad_if_needed=False, fill=0, padding_mode='constant')
【介绍】
和CenterCrop类似,但是是随机选取中心进行切割的
【参数】
- size也是可以是int可以是tuple(height,width)
- padding就是是否对图片进行填充,你可以输入2元组,表示左右填充和上下填充,也可以输入四元组,表示左上右下的填充;
- pad_if_needed是boolean,一般是True。随机选取如果选取的比较边缘,超出了边界,那么是否进行填充
- fill (int),你选择填充的是0(黑色),还是255(白色)呢?这个尽在padding_mode='constant'时有效
- padding_mode表示填充的方法。有四种:'constant', 'edge', 'reflect' or 'symmetric' . 默认是constant常数填充。edge是填充边缘的那个像素值,一般效果比constant强一些,自己做的项目中;reflect和symmetric都是表示以边界为轴进行镜像的填充,区别在于:
- reflect:[1,2,3,4,5]进行padding=2的时候,那么就是[3,2,1,2,3,4,5,4,3]
- symmetric:[1,2,3,4,5]进行padding=2的时候,那么就是[2,1,1,2,3,4,5,5,4]
- 区别是否重复边界的哪一个元素。两种方法差别不大。
2.3 随机比例切割
【代码】
torchvision.transforms.RandomResizedCrop(size, scale=(0.08, 1.0), ratio=(0.75, 1.3333), interpolation=2)
【介绍】
这个比较有意思,随机大小切割图片,然后再resize到设置的size大小。
参数中scale控制切割图片的大小是原图的比例,然后ratio控制切割图片的高宽比(纵横比),默认是从3/4 到 4/3。切割完成后再resize到设置的size大小。这个方法一般用在训练inception网络。
2.4 颜色震颤ColorJitter
【代码】
torchvision.transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)
【介绍】
随机修改亮度brightness,对比度contrast, 饱和度saturation,色相hue
【参数】
- brightness (float or tuple (min, max)) – 如果输入是一个float,那么建议在选取一个小于1的浮点数。亮度系数会从区间均匀选取,如果我使用这个,我设置brightness是0.1的话,那么这个系数就是之间随机选取。如果输入时一个tuple的话,那么就是在 中选取。
- contrast (float or tuple (min, max)) – 和上面一样,也是一个系数的选取。
- saturation (float or tuple (min, max)) – 和上面一样,也是一个系数的选取。
- hue (float or tuple (min, max)) – hue是色相。这里色相的取值应该小于0.5。如果输入时一个float,那么取值应该,系数在 选取;如果是tuple,那么就是
2.5 随机旋转RandomRotation
【代码】
torchvision.transforms.RandomRotation(degrees, resample=False, expand=False, center=None, fill=None)
【介绍】
就是随机的按照角度宣传图片
【参数】
- degrees (int or tuple (min,max)) – 老规矩了,整数旋转角度就是[-int,int],tuple就是[min,max]
- expand (bool, optional) – True就是让扩大图片,让图片可以包括所有内容(图片旋转的话,四个角的信息其实是旋转到了图片的外面,这个是扩大图片的像素尺寸,如果True在后面还要接一个resize的transforms); 默认是False,旋转后的图片和输入图片是同样的尺寸。
- center (2-tuple, optional) – 可以设置成非图片中心的旋转
- fill (n-tuple or int or float) – 设置填充像素值的,默认是0,一般也会选取0.
2.6 灰度化Grayscale
【代码】
torchvision.transforms.Grayscale(num_output_channels=1)
【介绍】
这个函数虽然不重要,但是会用的话可以提高变成速度哈哈。就是把图片转换成灰度的。
【参数】
- num_output_channels (int) – 正常情况下灰度图片是单通道的,但是这里你可以设置成3,这样的话,会输出3个通道的灰度图片(三个通道的特征值相同),这样的话,你就不用修改torchvision的预训练模型中的输入接口了。(因为之前提到的,预训练模型使用ImageNet训练的,输入都是三通道彩色图)
2.7 size
【代码】
torchvision.transforms.Resize(size, interpolation=2)
【介绍】
把PIL图片resize成指定大小
【参数】
- size (tuple(height,width) or int) – tuple的话就直接resize成指定大小;int的话,就按照比例,让图片的短边长度变成int大小。
- interpolation (int, optional) – 插值方法,一般都使用默认的PIL.Image.BILINEAR双重线性插值。
2.8 概率随机(常用)
图像增强有:变成灰度,镜像,翻转,平移,旋转等。
【代码】
# 变成灰度,输入输出通道数默认相同
torchvision.transforms.RandomGrayscale(p=0.1)
# 随机水平翻转
torchvision.transforms.RandomHorizontalFlip(p=0.5)
# 随机竖直翻转
torchvision.transforms.RandomVerticalFlip(p=0.5)
【参数】
- p:表示执行这个transform的概率
3 Tensor上的操作
3.1 标准化Normalize
【代码】
torchvision.transforms.Normalize(mean, std, inplace=False)
【参数】
- mean和std都是list,[mean_1,...,mean_n]和[std_1,...,std_n],n为通道数。每一个通道都应该有一个mean和std。计算的方法是,就是常用的那种:
4 PIL,Tensor转换函数
4.1 ToPILImage
torchvision.transforms.ToPILImage(mode=None)
【介绍】
把一个tensor或者np的array转换成PIL。值得注意的是,如果输入时Tensor,那么维度应该是 C x H x W ,如果是numpy的话,是 H x W x C。 (这是一个一般不会出现,但是一旦出现很难想到的问题。)
4.2 ToTensor
torchvision.transforms.ToTensor
【介绍】
把PIL或者numpy转换成Tensor。PIL和Numpy (格式H x W x C,范围[0,255]),转换成Tensor(格式C x H x W,范围[0,1])
5 案例代码分析
from PIL import Image
from torchvision import transforms
def loadImage():
# 读取图片
im = Image.open("brunch.jpg")
im = im.convert("RGB")
im.show()
return im
im = loadImage()
图片是我在英国留学的时候,有一道菜叫无花果土司,虽然不好吃但是好看,原图:
#从中心裁剪一个600*600的图像
output = transforms.CenterCrop(600)(im)
output.show()
# 从中心裁一个长为600,宽为800的图像
output = transforms.CenterCrop((600,800))(im)
output.show()
#随机裁剪一个600*600的图像
output = transforms.RandomCrop(600)(im)
output.show()
#随机裁剪一个600*800的图像
output = transforms.RandomCrop((600,800))(im)
output.show()
#从上、下、左、右、中心各裁一个300*300的图像
outputs = transforms.FiveCrop(300)(im)
outputs[4].show()
类似的图片,就不占用painful了
#p默认为0.5,这里设成1,那么就肯定会水平翻转
output = transforms.RandomHorizontalFlip(p=1.0)(im)
output.show()
output = transforms.RandomVerticalFlip(p=1)(im)
output.show()
#在(-30,30)之间选择一个角度进行旋转
output = transforms.RandomRotation(30)(im)
output.show()
#在60-90之间选择一个角度进行旋转
output = transforms.RandomRotation((60,90))(im)
output.show()
output = transforms.Resize((400,500))(im)
output.show()
这个图像一样就尺寸变小了,就不放图了。
trans = transforms.Compose([transforms.CenterCrop(300),
transforms.RandomRotation(30),
])
output = trans(im)
output.show()
- END -
相关推荐
- 离谱!写了5年Vue,还不会自动化测试?
-
前言大家好,我是倔强青铜三。是一名热情的软件工程师,我热衷于分享和传播IT技术,致力于通过我的知识和技能推动技术交流与创新,欢迎关注我,微信公众号:倔强青铜三。Playwright是一个功能强大的端到...
- package.json 与 package-lock.json 的关系
-
模块化开发在前端越来越流行,使用node和npm可以很方便的下载管理项目所需的依赖模块。package.json用来描述项目及项目所依赖的模块信息。那package-lock.json和...
- Github 标星35k 的 SpringBoot整合acvtiviti开源分享,看完献上膝盖
-
前言activiti是目前比较流行的工作流框架,但是activiti学起来还是费劲,还是有点难度的,如何整合在线编辑器,如何和业务表单绑定,如何和系统权限绑定,这些问题都是要考虑到的,不是说纯粹的把a...
- Vue3 + TypeScript 前端研发模板仓库
-
我们把这个Vue3+TypeScript前端研发模板仓库的初始化脚本一次性补全到可直接运行的状态,包括:完整的目录结构所有配置文件研发规范文档示例功能模块(ExampleFeature)...
- Vue 2迁移Vue 3:从响应式到性能优化
-
小伙伴们注意啦!Vue2已经在2023年底正式停止维护,再不升级就要面临安全漏洞没人管的风险啦!而且Vue3带来的性能提升可不是一点点——渲染速度快40%,内存占用少一半,更新速度直接翻倍!还在...
- VUE学习笔记:声明式渲染详解,对比WEB与VUE
-
声明式渲染是指使用简洁的模板语法,声明式的方式将数据渲染进DOM系统。声明式是相对于编程式而言,声明式是面向对象的,告诉框架做什么,具体操作由框架完成。编程式是面向过程思想,需要手动编写代码完成具...
- 苏州web前端培训班, 苏州哪里有web前端工程师培训
-
前端+HTML5德学习内容:第一阶段:前端页面重构:PC端网站布局、HTML5+CSS3基础项目、WebAPP页面布局;第二阶段:高级程序设计:原生交互功能开发、面向对象开发与ES5/ES6、工具库...
- 跟我一起开发微信小程序——扩展组件的代码提示补全
-
用户自定义代码块步骤:1.HBuilderX中工具栏:工具-代码块设置-vue代码块2.通过“1”步骤打开设置文件...
- JimuReport 积木报表 v1.9.3发布,免费可视化报表
-
项目介绍积木报表JimuReport,是一款免费的数据可视化报表,含报表、大屏和仪表盘,像搭建积木一样完全在线设计!功能涵盖:数据报表、打印设计、图表报表、门户设计、大屏设计等!...
- 软开企服开源的无忧企业文档(V2.1.3)产品说明书
-
目录1....
- 一款面向 AI 的下一代富文本编辑器,已开源
-
简介AiEditor是一个面向AI的下一代富文本编辑器。开箱即用、支持所有前端框架、支持Markdown书写模式什么是AiEditor?AiEditor是一个面向AI的下一代富文本编辑...
- 玩转Markdown(2)——抽象语法树的提取与操纵
-
上一篇玩转Markdown——数据的分离存储与组件的原生渲染发布,转眼已经鸽了大半年了。最近在操纵mdast生成md文件的时候,心血来潮,把玩转Markdown(2)给补上了。...
- DeepseekR1+ollama+dify1.0.0搭建企业/个人知识库(入门避坑版)
-
找了网上的视频和相关文档看了之后,可能由于版本不对或文档格式不对,很容易走弯路,看完这一章,可以让你少踩三天的坑。步骤和注意事项我一一列出来:1,前提条件是在你的电脑上已配置好ollama,dify1...
- 升级JDK17的理由,核心是降低GC时间
-
升级前后对比升级方法...
- 一个vsCode格式化插件_vscode格式化插件缩进量
-
ESlint...
你 发表评论:
欢迎- 一周热门
-
-
MySQL中这14个小玩意,让人眼前一亮!
-
旗舰机新标杆 OPPO Find X2系列正式发布 售价5499元起
-
【VueTorrent】一款吊炸天的qBittorrent主题,人人都可用
-
面试官:使用int类型做加减操作,是线程安全吗
-
C++编程知识:ToString()字符串转换你用正确了吗?
-
【Spring Boot】WebSocket 的 6 种集成方式
-
PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL
-
pytorch中的 scatter_()函数使用和详解
-
与 Java 17 相比,Java 21 究竟有多快?
-
基于TensorRT_LLM的大模型推理加速与OpenAI兼容服务优化
-
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)