百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

Tensorflow中数据集(tf.data.Dataset)的入门使用示例

ztj100 2025-02-19 14:45 7 浏览 0 评论

Tensorflow中tf.data.Dataset是最常用的数据集类,我们也使用这个类做转换数据、迭代数据等操作。一般来说,在昨晚特征预处理之后,我们都是用这个类来加载数据,构造算法的输入,它本身自带的repeat/shuffle/batch等操作也非常方便我们使用。但是初学者可能容易搞混。本文构造了一个简单的数据来说明如何使用这个类,并循环迭代输出。

本文目录如下:

  1. 引入必要的包
  2. 使用numpy构造数据集
  3. 将numpy数据转换成Dataset
  4. 获取数据迭代器
  5. 创建了迭代器之后就可以循环数据了
  6. 使用tqdm循环输出

使用Dataset管理数据集需要首先定义数据来源,我们可以使用numpy或者tensor定义的数据作为数据来源来定义Dataset,假设我们有如下numpy定义的代码。

1、引入必要的包

import numpy as np
import tensorflow as tf

2、使用numpy构造数据集

seed = 1000 # 定义随机数产生的方式
data_size = 10 # 数据集大小
n_repeats = 10 # 数据集重复的次数,这个值就是平常我们见到的max_epoch
batch_size = 6 # 批处理的大小
np.random.seed(seed)
# 在这里我们定义两个特征集合和一个标签集合,features1有三列特征,features2有4列特征,labels是0-2之间的一种
features1 = np.random.random((data_size, 3))
features2 = np.random.random((data_size, 4))
labels = np.random.randint(0, 3, data_size)
# 打印测试
print(features1)
print(features2)
print(labels)

3、将numpy数据转换成Dataset

一般我们常使用
tf.data.Dataset.from_tensor_slices方法加载数据。同时,Dataset提供了repeat()和batch()方法方便我们建立循环的数据,repeat参数给定一个整型值就可以使数据重复几份,而batch则是将数据以多少条进行批处理,也就是按照batch参数大小切割数据。

注意,repeat和batch的先后顺序不一样 ,结果是不同的,先repeat再batch会把数据先复制N份变成一个大数据,然后batch是根据这个大的数据来做的。例如,上面我们构造了10个数据,先repeat10份就有100个,再假设batch设置为6,那么最终数据是100/6+1=17份,那么也就是循环17次,如果先batch设置为6,那么数据先变成了10/6+1=2份,再repeat10次就有了20份数据了,循环要20次。这个一定要注意。

# dataset = tf.data.Dataset.from_tensor_slices((features1, features2, labels)).repeat(10).batch(6)
dataset = tf.data.Dataset.from_tensor_slices((features1, features2, labels)).batch(batch_size).repeat(n_repeats)

4、获取数据迭代器

数据准备完成之后需要获取数据迭代器供后面迭代使用,Tensorflow创建迭代器的方法有四种,其中单词迭代器和可初始化的迭代器是最常见的两种:

# 单次迭代器只能循环使用一次数据,而且单次迭代器不需要手动显示调用sess.run()进行初始化即可使用
iterator = dataset.make_one_shot_iterator()
# 可初始化的迭代器可以重新初始化进行循环,但是需要手动显示调用sess.run()才能循环
iterator = dataset.make_initializable_iterator()
# 创建了迭代器之后,我们获取迭代器结果便于后面的运行,注意,这里不会产生迭代,只是建立tensorflow的计算图,因此不会消耗迭代
next_element = iterator.get_next()

5、创建了迭代器之后就可以循环数据了

迭代器循环的停止通过捕获数据越界的错误进行

count = 0
with tf.Session() as sess:
 # 这是显示初始化,当我们的迭代器是dataset.make_initializable_iterator()的时候,才需要调用这个方法,否则不需要
 sess.run(iterator.initializer)
 # 无线循环数据,直到越界
 while True:
 try:
 features1_batch, features2_batch, labels_batch = sess.run(next_element)
 count += 1
 print(count)
 except tf.errors.OutOfRangeError:
 break

这里的count输出与上面repeat和batch的先后顺序有关,大家可以自己更换代码查看。

6、使用tqdm循环输出

除了上述捕获越界错误外,我们也可手动计算epoch循环次数和batch循环次数来确定终止的情况。可以配合tqdm包进行输出。tqdm是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)即可。我们先引入必要的包:

import time
from tqdm import trange

接下来我们使用自己计算的结果循环:

# 注意,这里实例总数显然是先repeat再batch的结果,要根据实际情况做改变
total_instances = data_size * n_repeats
steps_per_epoch = data_size // batch_size if data_size / batch_size == 0 else data_size // batch_size + 1
with tf.Session() as sess:
 sess.run(iterator.initializer)
 for epoch in range(n_repeats):
 tqr = trange(steps_per_epoch, desc="%2d" % (epoch + 1), leave=False)
 for _ in tqr:
 features1_batch, features2_batch, labels_batch = sess.run(next_element)
 # 由于这里循环没有计算过程,速度很快,看不到进度条,我们加了暂停0.5秒便于观察结果
 time.sleep(0.5)
 # 由于所有数据都已经循环完毕,如下代码将会报越界的错误,证明我们是对的
 sess.run(next_element)

我们可以看到如下的进度条:

以上就是Tensorflow中dataset的读取、循环使用的基本概念。

完整代码点击了解更多,并在原文底部中有Github的链接。

相关推荐

告别手动操作:一键多工作表合并的实用方法

通常情况下,我们需要将同一工作簿内不同工作表中的数据进行合并处理。如何快速有效地完成这些数据的整合呢?这主要取决于需要合并的源数据的结构。...

【MySQL技术专题】「优化技术系列」常用SQL的优化方案和技术思路

概述前面我们介绍了MySQL中怎么样通过索引来优化查询。日常开发中,除了使用查询外,我们还会使用一些其他的常用SQL,比如INSERT、GROUPBY等。对于这些SQL语句,我们该怎么样进行优化呢...

9.7寸视网膜屏原道M9i双系统安装教程

泡泡网平板电脑频道4月17日原道M9i采用Win8安卓双系统,对于喜欢折腾的朋友来说,刷机成了一件难事,那么原道M9i如何刷机呢?下面通过详细地图文,介绍原道M9i的刷机操作过程,在刷机的过程中,要...

如何做好分布式任务调度——Scheduler 的一些探索

作者:张宇轩,章逸,曾丹初识Scheduler找准定位:分布式任务调度平台...

mysqldump备份操作大全及相关参数详解

mysqldump简介mysqldump是用于转储MySQL数据库的实用程序,通常我们用来迁移和备份数据库;它自带的功能参数非常多,文中列举出几乎所有常用的导出操作方法,在文章末尾将所有的参数详细说明...

大厂面试冲刺,Java“实战”问题三连,你碰到了哪个?

推荐学习...

亿级分库分表,如何丝滑扩容、如何双写灰度

以下是基于亿级分库分表丝滑扩容与双写灰度设计方案,结合架构图与核心流程说明:一、总体设计目标...

MYSQL表设计规范(mysql表设计原则)

日常工作总结,不是通用规范一、表设计库名、表名、字段名必须使用小写字母,“_”分割。...

怎么解决MySQL中的Duplicate entry错误?

在使用MySQL数据库时,我们经常会遇到Duplicateentry错误,这是由于插入或更新数据时出现了重复的唯一键值。这种错误可能会导致数据的不一致性和完整性问题。为了解决这个问题,我们可以采取以...

高并发下如何防重?(高并发如何防止重复)

前言最近测试给我提了一个bug,说我之前提供的一个批量复制商品的接口,产生了重复的商品数据。...

性能压测数据告诉你MySQL和MariaDB该怎么选

1.压测环境为了尽可能的客观公正,本次选择同一物理机上的两台虚拟机,一台用作数据库服务器,一台用作运行压测工具mysqlslap,操作系统均为UbuntuServer22.04LTS。...

屠龙之技 --sql注入 不值得浪费超过十天 实战中sqlmap--lv 3通杀全国

MySQL小结发表于2020-09-21分类于知识整理阅读次数:本文字数:67k阅读时长≈1:01...

破防了,谁懂啊家人们:记一次 mysql 问题排查

作者:温粥一、前言谁懂啊家人们,作为一名java开发,原来以为mysql这东西,写写CRUD,不是有手就行吗;你说DDL啊,不就是设计个表结构,搞几个索引吗。...

SpringBoot系列Mybatis之批量插入的几种姿势

...

MySQL 之 Performance Schema(mysql安装及配置超详细教程)

MySQL之PerformanceSchema介绍PerformanceSchema提供了在数据库运行时实时检查MySQL服务器的内部执行情况的方法,通过监视MySQL服务器的事件来实现监视内...

取消回复欢迎 发表评论: