你对如何让调试器变得更快产生过兴趣吗?调试的断点本文将分享我们在为 Python 构建调试器时得到的一些经验。 整段故事讲的过程是我们在 Rookout 公司的团队为 Python 调试器开发不中断断点的经历,以及开发过程中得到的中设置不中断经验。我将在本月于旧金山举办的调试的断点 PyBay 2019 上介绍有关 Python 调试过程的更多细节,但现在就让我们立刻开始这段故事。过程 在诸多可选的 Python 调试器中,使用最广泛的调试的断点三个是: Python 调试器的选择虽多,但它们几乎都基于同一个函数:sys.settrace。香港云服务器过程 值得一提的中设置不中断是, sys.settrace 可能也是调试的断点 Python 标准库中最复杂的函数。 set_trace Python 2 docs page 简单来讲,过程settrace 的中设置不中断作用是为解释器注册一个跟踪函数,它在下列四种情形发生时被调用: 一个简单的跟踪函数看上去大概是这样: 在分析函数时我们首先关注的是参数和返回值,该跟踪函数的参数分别是: 该跟踪函数的返回值是它自身,这是由于解释器需要持续跟踪两类跟踪函数: 该机制的目的是让调试器对被跟踪的帧有更精确的把握,以减少对性能的影响。 仅仅依靠上文提到的内容,用自制的跟踪函数来构建一个真正的调试器似乎有些不切实际。幸运的云服务器提供商是,Python 的标准调试器 pdb 是基于 Bdb 构建的,后者是 Python 标准库中专门用于构建调试器的基类。 基于 Bdb 的简易断点调试器看上去是这样的: 这个调试器类的全部构成是: Rookout 的目标是在生产级性能的使用场景下提供接近普通调试器的使用体验。那么,让我们来看看先前构建出来的简易调试器表现的如何。 为了衡量调试器的整体性能开销,我们使用如下两个简单的函数来进行测试,它们分别在不同的情景下执行了 1600 万次。请注意,在所有情景下断点都不会被执行。 在使用调试器的情况下需要大量的时间才能完成测试。糟糕的结果指明了,这个简陋 Bdb 调试器的性能还远不足以在生产环境中使用。 First Bdb debugger results 降低调试器的额外开销主要有三种方法: 于是我们复刻了 Bdb 项目,精简特征、简化代码,针对使用场景进行优化。这些工作虽然得到了一些效果,但仍无法满足我们的需求。因此我们又继续进行了其它的尝试,将代码优化并迁移至 .pyx 使用 Cython 进行编译,可惜结果(如下图所示)依旧不够理想。最终,我们在深入了解 CPython 源码之后意识到,让跟踪过程快到满足生产需求是不可能的。 Second Bdb debugger results 熬过先前对标准调试方法进行的试验-失败-再试验循环所带来的失望,我们将目光转向另一种选择:字节码操作。 Python 解释器的工作主要分为两个阶段: 我们选择的模式是:使用字节码操作来设置没有全局额外开销的不中断断点。这种方式的实现首先需要在内存中的字节码里找到我们感兴趣的部分,然后在该部分的相关机器指令前插入一个函数调用。如此一来,解释器无需任何额外的工作即可实现我们的不中断断点。 这种方法并不依靠魔法来实现,让我们简要地举个例子。 首先定义一个简单的函数: 在 inspect 模块(其包含了许多实用的单元)的文档里,我们得知可以通过访问 multiply.func_code.co_code 来获取函数的字节码: 使用 Python 标准库中的 dis 模块可以翻译这些不可读的字符串。调用 dis.dis(multiply.func_code.co_code) 之后,我们就可以得到: 与直截了当的解决方案相比,这种方法让我们更靠近发生在调试器背后的事情。可惜 Python 并没有提供在解释器中修改函数字节码的方法。我们可以对函数对象进行重写,不过那样做的效率满足不了大多数实际的调试场景。最后我们不得不采用一种迂回的方式来使用原生拓展才能完成这一任务。 在构建一个新工具时,总会学到许多事情的工作原理。这种刨根问底的过程能够使你的思路跳出桎梏,从而得到意料之外的解决方案。 在 Rookout 团队中构建不中断断点的这段时间里,我学到了许多有关编译器、调试器、服务器框架、并发模型等等领域的知识。如果你希望更深入的了解字节码操作,谷歌的开源项目 cloud-debug-python 为编辑字节码提供了一些工具。 Python 调试器的中设置不中断心脏:sys.set_trace
简单三步构建调试器 (我们最初的设想)
这个简易的 Bdb 调试器效率如何呢?
对调试器进行优化
放弃 Bdb 转而尝试字节码操作
总结