我曾经做了两年大型软件的维护工作,那个项目有 10 多年了,大约 3000 万行以上的代码,参与过开发的有数千人,代码 checkout 出来有大约 5 个 GB,而且 bug 特别多,open 的有上千,即使最高优先级的 showstopper 也有上百。分享下我的 debug 的经验。
1. 优先解决那些可重现的
可重现的 bug 特别好找,反复调试测试就好了,先把好解决的干掉,这样最节约时间。
2. 问下老员工
对于某些 bug 没有头绪或者现象古怪不知道从哪里下手,找有经验的同事问一下思路,因为在那种开发多年的大型系统里,经常会反复出现同样原因的 bug,原因都类似,改了一处,过一阵子另外一处又冒出来,而且无法根治。
比如:我那个系统里有个特别危险的 API,接口参数比较难用,一旦有人用错了某些情况下就会出诡异的现象,解决很简单,找到调用这个 API 的地方把调用方式写对就好了。为什么不根治呢?因为要保持兼容性不能改接口了。Windows 系统里就好多这种烂 API。问下老员工吧,说不定他们都遇到过好多次了。
3. 放大现象
有些 bug 现象不太明显,那么就想办法增大它的破坏性,把现象放大。这只是个思路,具体怎么放大只能根据具体的代码来定。比如:美剧《豪斯医生》里有一集,怀疑病人心肺有问题,就让病人去跑步机上跑步,加重心肺负担,从而放大症状。
4. 二分法定位
把程序逻辑一点点注释掉,看看还会不会出问题,类似二分查找的方法,逐步缩小问题范围。
5. 模拟现场
有时候我会问自己,如果我要实现 bug 描述的现象我要怎么写代码才行?比如:我遇到一个死锁问题,但是检查代码发现所有的锁都是配对的,没有忘记解锁的地方,而且锁很简单就是一个普通的临界段,保护几行赋值语句而已。这样的代码怎么写才能让他死锁呢?我想如果让我故意制造这样一个现象,只有在上锁的时候强制杀掉线程了。既然这样就可以去看看有谁强杀线程了没有。
6. 制作工具
针对某些 bug 编写一些调试辅助工具。比如,我那个系统没有完善的崩溃报告,虽然也有 dump,但是分析出来的 callstack 经常不准。于是我为解决崩溃问题编写了个工具,会自动扫描代码,在每个函数入口和出口插入 log,以此来定位崩溃点。
7. 掩盖问题
虽然这样做有点不厚道,但是有时不得不这么做。有些 bug 找不到真正的 root cause,但是又要在规定时间内解决,那么我们就可以治疗症状而不去找病因。比如用 try catch 掩盖一些奇怪的崩溃。不到万不得已不要这么干,未来可能会付出更大代价。
后记:对于大部分转行的人来说,找机会把自己的基础知识补齐,边工作边补基础知识,真心很重要。