百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

会用这款工具,没有MySQL慢查询能逃出生天

ztj100 2025-04-11 09:49 23 浏览 0 评论


作者介绍

陈臣,甲骨文MySQL首席解决方案工程师,公众号《MySQL实战》作者,有大规模的MySQL、Redis、MongoDB、ES的管理和维护经验,擅长MySQL数据库的性能优化及日常操作的原理剖析。(本文摘录自陈臣老师新书《MySQL实战》-第九章 MySQL的常用工具)


pt-kill介绍


pt-kill是一款优秀的kill MySQL连接的工具,是percona toolkit的一部分。在因为空闲连接较多导致超过最大连接数、某个有问题的SQL导致MySQL负载很高时,都需要将一些连接kill掉,pt-kill就有着这样的功能。


pt-kill实现原理


首先,看看线上的一个高频需求,即杀掉执行时间超过30秒的慢查询。具体命令如下。


pt-kill h=192.168.244.10,P=3306,u=pt_user,p=pt_pass --busy-time 30 --interval 10 --print –kill –match-info "(?i-xsm:select)"


命令行中的 --busy-time定义了慢查询的阈值,--interval指的是检测时间间隔,这里pt-kill会每隔10秒执行一次SHOW FULL PROCESSLIST操作,看看是否有执行时间超过30秒的查询。如果有,则执行KILL操作(由 --kill参数决定),并将执行的KILL操作及被杀掉的SQL语句打印出来(--print)。


注意,--busy-time针对的是Command列为Query的操作,而SHOW PROCESSLIST中Command列为Query的操作不仅仅包括SELECT,同样也包括DELECT、INSERT、UPDATE和ALTER操作。所以为了保证杀掉的一定是SELECT操作,这里使用了--match-info进行过滤。--match-info匹配的是SHOW PROCESSLIST中Info列的内容。?i-xsm:^select是正则表达式,匹配以select开头的操作,不区分大小写。


看看该命令的输出及对应的general log。


# 2022-01-05T21:28:57 KILL 103 (Query 39 sec) select sleep(100)
# 2022-01-05T21:29:07 KILL 105 (Query 47 sec) select sleep(200)
2022-01-05T21:28:47.348592+08:00      106 Query    SHOW FULL PROCESSLIST
2022-01-05T21:28:57.349148+08:00      106 Query    SHOW FULL PROCESSLIST
2022-01-05T21:28:57.349763+08:00      106 Query    KILL '103'
2022-01-05T21:29:07.350167+08:00      106 Query    SHOW FULL PROCESSLIST
2022-01-05T21:29:07.350651+08:00      106 Query    KILL '105'
2022-01-05T21:29:17.352402+08:00      106 Query    SHOW FULL PROCESSLIST


可以看到,在杀掉第一个查询的时候,第二个查询其实也满足条件,但没被杀掉,而是等到下一轮检测才被杀掉。这个行为实际上是由 --victims参数控制的,--victims取值如下。


(1)oldest:每次只会杀掉执行时间最长的那个查询,是默认值。


(2)all:杀掉所有符合条件的查询。


(3)all-but-oldest:杀掉所有符合条件的查询,除了执行时间最长的那个。


既然是基于SHOW PROCESSLIST的输出,pt-kill就可从多个维度进行过滤,具体的过滤参数如下。


  • --ignore-user、--match-user


基于USER列的输出进行过滤。


  • --ignore-host、--match-host


基于HOST列的输出进行过滤。


  • --ignore-db、--match-db


基于db列的输出进行过滤。


  • --ignore-command、--match-command


基于command列的输出进行过滤。


  • --ignore-state、--match-state


基于State列的输出进行过滤。


  • --ignore-info、--match-info


基于Info列的输出进行过滤。


以上过滤参数均支持正则匹配。


需要注意的是,如果同时指定了 --busy-time和过滤参数,对于Command列不为Query的操作,此时起作用的将只有过滤参数,没有--busy-time。看下面这个示例。


# mysql -h 192.168.244.10 -uu1 -p123456
mysql> select connection_id();
+-----------------+
| connection_id() |
+-----------------+
|             113 |
+-----------------+
1 row in set (0.00 sec)

mysql> begin;
Query OK, 0 rows affected (0.00 sec)

mysql> delete from slowtech.t1 limit 1;
Query OK, 1 row affected (0.00 sec)


执行pt-kill操作。


pt-kill h=192.168.244.10,P=3306,u=pt_user,p=pt_pass --busy-time 30 --interval 10 --print --kill --match-user u1 
# 2022-01-05T21:40:43 KILL 113 (Sleep 9 sec) NULL


这本来是要将来自u1的执行时间超过30秒的操作杀掉,却意外地杀掉了一个未提交的事务。


究其原因,是 --busy-time只对Command列为Query的操作才有效果,而这个事务对应的Command列是Sleep。


pt-kill过滤逻辑


下面从源码的角度分析pt-kill的过滤逻辑,这样我们才能更加清晰地知道--busy-time和过滤参数之间的关系。


sub find {
   my ( $self, $proclist, %find_spec ) = @_;
   PTDEBUG && _d('find specs:', Dumper(\%find_spec));
   my $ms  = $self->{MasterSlave};
   # 定义一个数组,用来存储需要杀掉的操作
   my @matches;
   $self->{_reasons_for_matching} = undef;
   QUERY:
   # 遍历SHOW FULL PROCESSLIST的输出
   foreach my $query ( @$proclist ) {
      PTDEBUG && _d('Checking query', Dumper($query));
      my $matched = 0;
      # 如果命令行中不指定--replication-threads,则默认会跳过复制相关线程
      if (    !$find_spec{replication_threads}
           && $ms->is_replication_thread($query) ) {
         PTDEBUG && _d('Skipping replication thread');
         next QUERY;
      }
      # $self->{kill_busy_commands}是一张哈希表,exists用来判断哈希表中是否有指定键
      # $self->{kill_busy_commands}中的键由--kill-busy-commands指定,不指定则默认为Query。
      if ( $find_spec{busy_time} && exists($self->{kill_busy_commands}->{$query->{Command} || ''}) ) {
         next QUERY unless defined($query->{Time});
         # 如果操作的执行时间小于--busy-time,则会跳过当前操作,不会进行其他判断
         if ( $query->{Time} < find_specbusy_time ptdebug _dquery isnt running long enough next query my reason='Exceeds busy time' ptdebug _dreason push self->{_reasons_for_matching}->{$query} ||= []}, $reason;
         $matched++;
      }
      # 如果命令行中指定了--idle-time,则只会匹配Command为Sleep类型的操作
      if ( $find_spec{idle_time} && ($query->{Command} || '') eq 'Sleep' ) {
         next QUERY unless defined($query->{Time});
         # 如果操作的执行时间小于--idle-time,则会跳过当前操作,不会进行其他判断
         if ( $query->{Time} < find_specidle_time ptdebug _dquery isnt idle long enough next query my reason='Exceeds idle time' ptdebug _dreason push self->{_reasons_for_matching}->{$query} ||= []}, $reason;
         $matched++;
      }
      
      PROPERTY:
      # 判断操作是否满足--ignore-user,--match-user之类参数指定的条件
      foreach my $property ( qw(Id User Host db State Command Info) ) {
         my $filter = "_find_match_$property";
         # 如果设置了ignore相关的参数,且操作满足ignore参数指定的条件,则会跳过当前操作
         if ( defined $find_spec{ignore}->{$property}
              && $self->$filter($query, $find_spec{ignore}->{$property}) ) {
            PTDEBUG && _d('Query matches ignore', $property, 'spec');
            next QUERY;
         }
         # 如果设置了match相关的参数,且操作不满足match参数指定的条件,则会跳过当前操作
         if ( defined $find_spec{match}->{$property} ) {
            if ( !$self->$filter($query, $find_spec{match}->{$property}) ) {
               PTDEBUG && _d('Query does not match', $property, 'spec');
               next QUERY;
            }
            my $reason = 'Query matches ' . $property . ' spec';
            PTDEBUG && _d($reason);
            push @{$self->{_reasons_for_matching}->{$query} ||= []}, $reason;
            $matched++;
         }
      }
      # 将满足条件、需要杀掉的操作添加到@matches
      # $find_spec{all}对应命令行中的--match-all参数
      if ( $matched || $find_spec{all} ) {
         PTDEBUG && _d("Query matched one or more specs, adding");
         push @matches, $query;
         next QUERY;
      }
      PTDEBUG && _d('Query does not match any specs, ignoring');
   } # QUERY
   return @matches;
}


从源码中可以得出以下几点:


(1)--busy-time只适用于Command列为Query的操作。

(2)--idle-time只适用于Command列为Sleep的操作。

(3)--idle-time和--busy-time的处理逻辑相同。

(4)对于Command列不为Query的操作,只能通过 --ignore-user、--match-user之类的参数进行过滤。

(5)对于Command列为Query的操作,当执行时长超过 --busy-time时,将进一步通过 --ignore-user、--match-user之类的参数进行过滤。

(6)--match-all参数用来匹配所有未被忽略的操作,可用来实现否定匹配的功能。


pt-kill常见用法


1. 将KILL操作记录在数据库中


具体命令如下。


pt-kill h=192.168.244.10,P=3306,u=pt_user,p=pt_pass --busy-time 30 --interval 10 --print --kill --log-dsn 
h=192.168.244.10,P=3306,u=pt_user,p=pt_pass,D=percona,t=kill_log --create-log-table


KILL操作会记录在 --log-dsn指定的实例中,如果表不存在,可指定 --create-log-table创建。表中记录如下。


mysql> select *  from percona.kill_log limit 1\G
*************************** 1. row ***************************
   kill_id: 1
 server_id: 1
 timestamp: 2022-01-05 22:00:11
    reason: Exceeds busy time
kill_error:
        Id: 128
      User: root
      Host: localhost
        db: NULL
   Command: Query
      Time: 35
     State: User sleep
      Info: select sleep(120)
   Time_ms: NULL
1 row in set (0.00 sec)


2. 将pt-kill作为守护进程运行


具体命令如下:


pt-kill h=192.168.244.10,P=3306,u=pt_user,p=pt_pass --busy-time 30 --interval 10 --print --kill --log /tmp/pt-kill.log --daemonize


执行的kill操作会记录在 --log指定的文件中。


默认情况下,pt-kill不会杀掉复制相关的连接。


上述命令都指定了 --kill,此时会杀掉连接。如果只想杀掉查询,而不是连接,可指定 --kill-query。如果只是打印,而不是实际执行KILL操作,只需指定 --print。



关于我们

dbaplus社群是围绕Database、BigData、AIOps的企业级专业社群。资深大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,每季度Gdevops&DAMS行业大会。

关注公众号【dbaplus社群】,获取更多原创技术文章和精选工具下载

相关推荐

其实TensorFlow真的很水无非就这30篇熬夜练

好的!以下是TensorFlow需要掌握的核心内容,用列表形式呈现,简洁清晰(含表情符号,<300字):1.基础概念与环境TensorFlow架构(计算图、会话->EagerE...

交叉验证和超参数调整:如何优化你的机器学习模型

准确预测Fitbit的睡眠得分在本文的前两部分中,我获取了Fitbit的睡眠数据并对其进行预处理,将这些数据分为训练集、验证集和测试集,除此之外,我还训练了三种不同的机器学习模型并比较了它们的性能。在...

机器学习交叉验证全指南:原理、类型与实战技巧

机器学习模型常常需要大量数据,但它们如何与实时新数据协同工作也同样关键。交叉验证是一种通过将数据集分成若干部分、在部分数据上训练模型、在其余数据上测试模型的方法,用来检验模型的表现。这有助于发现过拟合...

深度学习中的类别激活热图可视化

作者:ValentinaAlto编译:ronghuaiyang导读使用Keras实现图像分类中的激活热图的可视化,帮助更有针对性...

超强,必会的机器学习评估指标

大侠幸会,在下全网同名[算法金]0基础转AI上岸,多个算法赛Top[日更万日,让更多人享受智能乐趣]构建机器学习模型的关键步骤是检查其性能,这是通过使用验证指标来完成的。选择正确的验证指...

机器学习入门教程-第六课:监督学习与非监督学习

1.回顾与引入上节课我们谈到了机器学习的一些实战技巧,比如如何处理数据、选择模型以及调整参数。今天,我们将更深入地探讨机器学习的两大类:监督学习和非监督学习。2.监督学习监督学习就像是有老师的教学...

Python教程(三十八):机器学习基础

...

Python 模型部署不用愁!容器化实战,5 分钟搞定环境配置

你是不是也遇到过这种糟心事:花了好几天训练出的Python模型,在自己电脑上跑得顺顺当当,一放到服务器就各种报错。要么是Python版本不对,要么是依赖库冲突,折腾半天还是用不了。别再喊“我...

超全面讲透一个算法模型,高斯核!!

...

神经网络与传统统计方法的简单对比

传统的统计方法如...

AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程

...

自回归滞后模型进行多变量时间序列预测

下图显示了关于不同类型葡萄酒销量的月度多元时间序列。每种葡萄酒类型都是时间序列中的一个变量。假设要预测其中一个变量。比如,sparklingwine。如何建立一个模型来进行预测呢?一种常见的方...

苹果AI策略:慢哲学——科技行业的“长期主义”试金石

苹果AI策略的深度原创分析,结合技术伦理、商业逻辑与行业博弈,揭示其“慢哲学”背后的战略智慧:一、反常之举:AI狂潮中的“逆行者”当科技巨头深陷AI军备竞赛,苹果的克制显得格格不入:功能延期:App...

时间序列预测全攻略,6大模型代码实操

如果你对数据分析感兴趣,希望学习更多的方法论,希望听听经验分享,欢迎移步宝藏公众号...

AI 基础知识从 0.4 到 0.5—— 计算机视觉之光 CNN

...

取消回复欢迎 发表评论: