这几天做一个跨机房实时迁移的混合和思操作,碰到一个有些奇怪的问题问题,记录一下。修复 整体服务是混合和思在两个机房对等部署,然后通过级联复制的问题方式串起来。 实际切换前,修复节点B因为是混合和思从库,是问题很容易摘除的,所以整体的修复部署架构仅剩下A,C,D 同时在切换前,为了保证整个业务访问域名的混合和思可用性,会临时开启双主复制,问题这个阶段能够最大程度保证数据的修复完整性。当然这里会有两种模式,混合和思一种是问题最大保护模式,最大保护模式意味着数据只能从一个入口写入,修复如果双写很可能会数据冲突,第二种是最大可用模式,也就意味着整个过程数据在两边始终可以写入。这个模式的选用和具体的业务特点有关(读多写少,读多写多等)。站群服务器 所以A和C之间的双主配置就显得尤其重要,也是整个平滑切换数据完整性的基础。 目前A,C,D节点的GTID基本信息如下: A: show master status Executed_Gtid_Set: A:1-222717169,B:1-697 C:show slave status Executed_Gtid_Set: A:1-222716771,B:1-700 D:show slave status Executed_Gtid_Set: A:1-222716771,B:1-700 这个数据表达的含义比较深刻,那就是在数据链中,存在已被摘除的节点B的GTID信息,而从C,D的GTID相关信息可以看到,B中是丢失了一个数据事务的(当然这个过程不是真正的数据变化,和操作不规范有关) 所以在这种情况下如果要配置双主,需要解决的就是B相关GTID的差异,一种是直接抹去B的痕迹,这个过程需要在C,D上面可操作,但是实际复制双主的时候又会出问题。 如果把GTID当做一种数据血缘的云服务器提供商角度会发现,整个GTID真是一个很有灵性的设计。假设红色是A的数据血缘,绿色是B的数据血缘。 舍弃了B之后,A,C开启了双主,整个数据血缘就是如下的状态了: 所以整个复制拓扑中的任何数据变化都能够有理有据的追溯,这是GTID设计很有价值的一件事情。 关于修复方式,也比较清晰,那就是把C和D的数据血缘B的部分做下“回退”,如下: A: show master status Executed_Gtid_Set: A:1-222717169,B:1-697 C:show slave status Executed_Gtid_Set: A:1-222716771,B:1-697 D:show slave status Executed_Gtid_Set: A:1-222716771,B:1-697 按照这种模式来一次修改C和D,整个双向复制就能够很快构建起来了。 回置GTID的原理可以参考如下的图,通过gtid_purged可以间接实现裁剪。 C端修复的亿华云计算步骤如下: 1)stop slave; 2)show slave status\G 3)reset master; 切记是在Slave端执行,这个阶段的目的就是要重新配置GTID的校准值。这个时候mysql.gtid_executed应该就是空的了。 4)重置GTID_purged值 5)删除从库的复制配置 6)配置复制关系 CHANGE MASTER TO MASTER_USER=dba_repl, MASTER_PASSWORD=xxxx , MASTER_HOST=xxxxx,MASTER_PORT=xxxx,MASTER_AUTO_POSITION = 1; 7)重启Slave节点,查看状态 修复好之后,这部分打算是写一个巡检GTID和修复的脚本逻辑,能够把这部分的管理做得更细致一些。 本文转载自微信公众号「杨建荣的学习笔记」,可以通过以下二维码关注。转载本文请联系杨建荣的学习笔记公众号。