导读 线上有个MySQL实例,意想延迟原因存在严重的复制复制延迟问题,原因出乎意料。意想延迟原因 线上有个MySQL 5.7版本的复制实例,从服务器延迟了3万多秒,意想延迟原因而且延迟看起来好像还在加剧。复制 MySQL版本 看下延迟状况 我们看到,意想延迟原因binlog文件落后了64个,复制相当的意想延迟原因夸张。 MySQL 5.7不是复制已经实现并行复制了吗,怎么还会延迟这么厉害?意想延迟原因 先检查系统负载。 看到mysqld进程其实负载还好,复制不算太高,意想延迟原因也不存在严重的复制SWAP等问题。 再看I/O子系统负载,意想延迟原因没看到这方面存在瓶颈(await\svctm\%util都不高)。 再看mysqld进程的CPU消耗。 虽然mysqld进程的CPU消耗总是高防服务器超过100%,不过也不算太高。 再检查MySQL复制现场,确认了几个频繁更新的表都有主键,以及必要的索引。相应的DML操作也几乎都是基于主键或唯一索引条件执行的,排除无主键、无合理索引方面的因素。 ***只能祭出perf top神器了。 perf top -p `pidof mysqld` 看到perf top***的报告是这样的 我们看到, bitmap_get_next_set 这个函数调用占到了 56.19%,非常高,其次是 build_template_field 函数,占了 16.18%。服务器托管 经过检查MySQL源码并请教MySQL内核开发专家,***确认这两个函数跟启用表分区有关系。 查询下当前实例有多少个表分区: 额滴神啊,竟然有3万多个表分区,难怪上面那两个函数调用那么高。 这个业务数据库几个大表采用每天一个分区方案,而且把直到当年年底所有分区也都给提前创建好了,所以才会有这么多。 不过,虽然有这么多表分区,在master服务器上却不存在这个瓶颈,看起来是在主从复制以及大量表分区的综合因素下才有这个瓶颈,最终导致主从复制延迟越来越严重。 知道问题所在,解决起来就简单了。把到下个月底前用不到的表分区全部删除,之后约只剩下1.6万个分区。重启slave线程,问题解决,主从复制延迟很快就消失了。