「MySQL」性能测试如何快速生成千万数据
ztj100 2025-05-27 19:15 7 浏览 0 评论
前两天发现同事要做一个对大表进行范围查询的功能,然后想在本地生成7千万数据进行性能测试,苦于代码插入太慢,SQL单条插入也很慢,于是想到了用以下几个方法快速生成千万级数据。
数据单条插入
首先我们的表结构如下(嫌麻烦也可以直接看下面的截图):
CREATE TABLE `batch_index` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
`resource_id` int(10) unsigned NOT NULL COMMENT 'xx id',
`name` varchar(255) NOT NULL DEFAULT '' COMMENT '名称',
`cate_id` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '分类id',
`input_time` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '创建时间',
PRIMARY KEY (`id`),
KEY `idx_resource_id` (`resource_id`),
KEY `idx_cate_id` (`cate_id`),
KEY `idx_input_time` (`input_time`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
复制代码
然后单条SQL语句为一万条:
INSERT INTO batch_index VALUES (1, 1357, 'name_1357', 16, 1626984835);
INSERT INTO batch_index VALUES (2, 1148, 'name_1148', 6, 1617323895);
INSERT INTO batch_index VALUES (3, 1168, 'name_1168', 5, 1638031542);
...
复制代码
执行时间为:42.497 秒
数据批量插入
将数据表截断清空后,再批量导入这一万条
INSERT INTO batch_index VALUES
(1, 1357, 'name_1357', 16, 1626984835)
,(2, 1148, 'name_1148', 6, 1617323895)
,(3, 1168, 'name_1168', 5, 1638031542)
...
复制代码
执行时间为:1.815 秒
加事务
这种情况我们也分成两组:单条插入一万条并加事务、批量插入一万条并加事务。
单条插入一万条并加事务
start transaction;
INSERT INTO batch_index VALUES (1, 1357, 'name_1357', 16, 1626984835);
INSERT INTO batch_index VALUES (2, 1148, 'name_1148', 6, 1617323895);
...
commit;
复制代码
执行时间为:3.644 秒
批量插入一万条并加事务
start transaction;
INSERT INTO batch_index VALUES
(1, 1357, 'name_1357', 16, 1626984835)
,(2, 1148, 'name_1148', 6, 1617323895)
...
commit;
复制代码
执行时间为:2.003 秒
储存过程
有小伙伴会说我们可以用储存过程,这样可以快很多。
我们先定义存储过程:
DELIMITER $ -- 定义结束符(为了不跟储存过程的“;”冲突,这里重新定义)
drop procedure if exists `insert_batch_index` $
CREATE procedure `insert_batch_index` (in n int)
begin
declare i int default 1;
declare resource_id int default 0;
declare test_name varchar(255) default '';
declare cate_id int default 0;
declare input_time int default 0;
while i < n do
set resource_id = floor(1 + rand() * 3000);
set test_name = concat('name_', resource_id);
set cate_id = floor(1 + rand() * 20);
set input_time = floor(1609430400 + rand() * 32227200);
insert into batch_index values (null, resource_id, test_name, cate_id, input_time);
set i = i + 1;
end while;
end $
delimiter ; --把结束符再设置回“;”
复制代码
然后运行
call insert_batch_index(10000);
复制代码
执行时间为:41.796 秒
加上事务执行
start transaction;
call insert_batch_index(10000);
commit;
复制代码
执行时间为:0.798 秒
储存过程 + 内存表
跟我们前面创建的innodb的表结构一样,只是存储引擎用memory内存:
CREATE TABLE `batch_index_memory` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
`resource_id` int(11) NOT NULL COMMENT 'xx id',
`name` varchar(255) NOT NULL DEFAULT '' COMMENT '名称',
`cate_id` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '分类id',
`input_time` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '创建时间',
PRIMARY KEY (`id`) USING BTREE
) ENGINE=MEMORY DEFAULT CHARSET=utf8mb4 ROW_FORMAT=DYNAMIC;
复制代码
同样我们也创建一个存储过程,只是插入的表为batch_index_memory
-- 存储过程,插入到batch_index_memory内存表
call insert_batch_index_memory(10000);
insert into batch_index select * from batch_index_memory;
复制代码
执行时间为:0.745 秒
如果报错,说表空间已满,可以在my.cnf或my.ini文件中设置max_heap_table_size = 1G,视情况设置大小。
加上事务后:
start TRANSACTION;
call insert_batch_index_memory(10000);
commit;
insert into batch_index select * from batch_index_memory;
复制代码
执行时间为:0.740 秒
貌似没啥变化
临时表(内存表)
首先用你熟悉的编程语言生成以下文件(生成1万条大约耗时1.002秒):
再在MySQL客户端或者navicat等工具上运行(耗时0.02秒):
load data infile 'F:/batch_sql.sql' replace into table tmp_table;
复制代码
其中“F:/batch_sql.sql”是你的文件路径。
如果报错:
mysql> load data infile 'F:/batch_sql.sql' replace into table tmp_table;
ERROR 1290 (HY000): The MySQL server is running with the --secure-file-priv option so it cannot execute this statement
复制代码
需要在my.cnf或者my.ini配置文件中设置你的路径:
secure_file_priv =F:/
复制代码
然后从临时表复制主键id,并用随机生成的其他字段,复制到batch_index表,耗时0.245秒
insert into batch_index (
select
id,
floor(1 + rand() * 1000000) as resource_id,
concat('name', '_', floor(1 + rand() * 1000000)) as `name`,
floor(1 + rand() * 20) as cate_id,
floor(1609430400 + rand() * 32227200) as input_time
from tmp_table
);
复制代码
整个过程为1.267秒
对比
我们把这些用表格对比一下
方式 | 数据量 | 耗时 |
单条插入 | 10000 | 42.497 s |
批量插入 | 10000 | 1.815 s |
单条插入 + 事务 | 10000 | 3.644 s |
批量插入 + 事务 | 10000 | 2.003 s |
储存过程 | 10000 | 41.796 s |
存储过程 + 事务 | 10000 | 0.798 s |
储存过程 + 内存表 | 10000 | 0.745 s |
储存过程 + 内存表 + 事务 | 10000 | 0.740 s |
临时表(内存表) | 10000 | 1.267 s |
我们发现快速导入数据起作用的因素是:
- 事务
- 批量
- 存储过程
- 内存表/临时表
最后,我们将数据量提高到100万,做了以下对比:
方式 | 数据量 | 耗时 |
存储过程 + 事务 | 1000000 | 80.530 s |
储存过程 + 内存表 | 1000000 | 77.822 s |
储存过程 + 内存表 + 事务 | 1000000 | 76.466 s |
临时表(memory表) | 1000000 | 84.874 s |
临时表(innodb表) | 1000000 | 92.456 s |
当我以为这里基本就可以得出结论,存储过程 + 内存表的方式是最快的时候,准备生成1000万数据,发现我的mysqld服务挂了,因为内存爆了。
总结
快速生成测试数据的方法,我们主要尝试了用批量、事务、储存过程、临时内存表 的方式做对比,最终发现存储过程 + 内存表的方式是最快的,但随着数据量的增大,内存有可能爆掉,我们可以分批次生成。
有兴趣的小伙伴可以尝试一下,毕竟每台机器上的配置文件和机器性能不一样,可能结果上导致一些偏差。欢迎提出你的结论~
好了,这个技巧你学废了吗?
作者:易科编程
链接:
https://juejin.cn/post/7053467694560968712
- 上一篇:MySQL 批量操作,一次插入多少行数据效率最高?
- 下一篇:MySQL原理介绍
相关推荐
- Spring IoC Container 原理解析
-
IoC、DI基础概念关于IoC和DI大家都不陌生,我们直接上martinfowler的原文,里面已经有DI的例子和spring的使用示例...
- SQL注入:程序员亲手打开的潘多拉魔盒,如何彻底封印它?
-
一、现象:当你的数据库开始"说话",灾难就来了场景还原:...
- Java核心知识3:异常机制详解
-
1什么是异常异常是指程序在运行过程中发生的,由于外部问题导致的运行异常事件,如:文件找不到、网络连接失败、空指针、非法参数等。异常是一个事件,它发生在程序运行期间,且中断程序的运行。...
- MyBatis常用工具类三-使用SqlRunner操作数据库
-
MyBatis中提供了一个非常实用的、用于操作数据库的SqlRunner工具类,该类对JDBC做了很好的封装,结合SQL工具类,能够很方便地通过Java代码执行SQL语句并检索SQL执行结果。SqlR...
- 爆肝2W字梳理50道计算机网络必问面试题
-
1.说说HTTP常用的状态码及其含义?思路:这道面试题主要考察候选人,是否掌握HTTP状态码这个基础知识点。...
- SpringBoot整合Vue3实现发送邮箱验证码功能
-
1.效果演示2.思维导图...
- 最全JAVA面试题及答案(200+)
-
Java基础1.JDK和JRE有什么区别?JDK:JavaDevelopmentKit的简称,Java开发工具包,提供了Java的开发环境和运行环境。JRE:JavaRunti...
- Java程序员找工作翻车现场!你的项目描述踩了这几个坑?
-
Java程序员找工作翻车现场!你的项目描述踩了这几个坑?噼里啪啦敲了三年代码,简历一投石沉大海?兄弟,问题可能出在项目描述上!知道为什么面试官看你的项目像看天书吗?因为你写了三个致命雷区:第一,把项目...
- 2020最新整理JAVA面试题附答案,包含19个模块共208道面试题
-
包含的模块:本文分为十九个模块,分别是:Java基础、容器、多线程、反射、对象拷贝、JavaWeb、异常、网络、设计模式、Spring/SpringMVC、SpringBoot/Spring...
- 底层原理深度解析:equals() 与 == 的 JVM 级运作机制
-
作为Java开发者,你是否曾在集合操作时遇到过对象比较的诡异问题?是否在使用HashMap时发现对象丢失?这些问题往往源于对equals()和==的误解,以及实体类中这两个方法的不当实...
- 雪花算法,什么情况下发生 ID 冲突?
-
分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的...
- 50个Java编程技巧,免费送给大家
-
一、语法类技巧1.1.使用三元表达式普通:...
- 如何规划一个合理的JAVA项目工程结构
-
由于阿里Java开发手册对于工程结构的描述仅限于1、2节简单的概述,不能满足多样的实际需求,本文根据多个项目中工程的实践,分享一种较为合理实用的工程结构。工程结构的原则有依据、实用。有依据的含义是指做...
- Java 编程技巧之单元测试用例编写流程
-
温馨提示:本文较长,同学们可收藏后再看:)前言...
- MyBatis核心源码解读:SQL执行流程的奇妙之旅
-
MyBatis核心源码解读:SQL执行流程的奇妙之旅大家好呀!今天咱们要来一场既烧脑又有趣的旅程——探索MyBatis这个强大框架的核心秘密。你知道吗?当你在项目里轻轻松松写一句“select*f...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)