你碰到过的最难调的Bug是什么样的
你碰到过的最难调的Bug是什么样的
文/阿九(知乎)
本文系作者授权“清南”发布,如需转载请与作者本人联系。
网络硬件相关
现象:
某医院部署的网络,不定期会有半夜断网或者不稳定情况,但天亮就会恢复,客户投诉抱怨。
调试过程:
现场查看全部网络硬件正常,查看log发现有一台汇聚交换机有反复重启动作,在重启前有高温告警。于是重点关注该机器。
该机器放在一个机柜中,机柜在一个小储藏间的角落里,储藏间不大,一边还摆着张破沙发,正好可以坐着用电脑调机器,但是实在查不出什么可疑情况会导致过热,因为投诉等级较高,于是连夜蹲守。
第一夜无事。
第二夜无事,到半夜,忽然进来个小护士,吓一跳,说,哟怎么有人啊,然后就走了。一夜无事。
第三夜无事,到半夜,又来个小护士,探头看一眼走了。一夜无事。
第四夜无事。
于是告诉院方,发现问题马上打电话,回家。
第五夜出事,赶到时已是早上,网络已经正常,查看log发现还是过热告警重启,时间在半夜3点多。联想到前几天的小护士,于是问院方半夜是否有人进入,答一些值夜班的护士会偶尔在里面休息。
于是找到进去的小护士,问是否动交换机,答没有,问进去后做了些什么动作,答只是睡觉。再追问,除此之外呢?答:就是那个排风扇太吵,睡觉的时候把电源拔了。
她把机柜的冷却排风扇电源拔了!
她把机柜的冷却排风扇电源拔了!
她把机柜的冷却排风扇电源拔了!
她以为就是个通气风扇!
居然睡醒走了还知道再插回去 〒_〒
你有胆拔插头你倒是别插回去啊…
EEEEEEEEEEE分EE割EEEEEEEEEEEEE
再说一个吧。
研发的一块新电路板,调试正常,往机箱里面装,装上螺丝拧好后不上电了,没有电压,确认是电源短路保护。
把板子拆下来,又能用了。
装上去,又不能用了。
跟白鹿原里白孝文在窑洞里穿裤子一样。
机箱是金属并且接地的,检查了全部连接,电源肯定木有碰到地,但是用万用表量的明明就是电源地短路,而且就是裸板能用,带机壳就短路,于是怀疑螺丝。
螺丝都拧上就短路,都拆下来就正常。
然后挨个拧螺丝,定位到某个螺丝。
那个螺丝一拧上就短路。
但是电路板正面反面都是地,螺丝本来拧上去就是为了接地用的,怎么会把电源短路了呢……
这tmd不科学啊。
仔细端详该螺丝孔,发现内壁有些黑,凑近闻略有焦味。心里大概有数了,一查pcb图,果然,6层电路板,内层电源层的铺铜几乎直接铺到了螺丝孔,安全距离只留了一点点。
其实本来也没什么,螺丝只是固定用的,不会和螺丝孔内侧有什么触碰,好死不死的那块板子那个螺丝孔公差偏大,螺丝拧上去是没有完全对齐的,直接卡到了螺丝孔内壁……使劲一拧,就像刀一样切了进去,碰到了内层电源。
所以,所有灾难,都是一连串小概率事件的巧合扎堆,搞科学,也得信命。
来源邀稿:阿九
http://www.changweibo.com/ueditor/php/upload/20150827/14406384899379.jpghttp://www.zhihu.com/question/34787444/answer/60105035

加载中…