死鸭子事件簿之二

周日的时候,收到反馈,说公司对接的一批设备数据批量失效了。所有人的权限在所有设备上都被取消掉了,这并不是第一次出现用户权限莫名奇妙失效的情况,之前的时候局限于个别人,个别设备。解决方案也很简单粗暴,直接重新下发权限。然鹅,这种大面积失效,用户直接炸锅了。

联系设备厂商,厂商问,有那么着急吗? 用户都炸了,你说能不着急吗?终于中午的时候派了技术过来。下午开始查看设备日志,进行一系列的测试工作。

为了保证用户暂时能用,让研发把所有的设备重新下发了用户权限数据。但是,保留了两台,让他们进行调试以及现场故障排查。在折腾了一下午之后,没有得出神马有用的结论,给其中一台测试设备进行升级固件之后,表示要运行测试一段时间看看效果。看他们暂时也拿不出什么更有建设性意义的方案,暂时于其他人合计先这么处理。跟领导汇报后,领导不认可,要求必须给出问题原因。于是只好带着他们的研发继续去现场进行问题排查。终于,在经历了 4 个小时之后,在十点左右,给出了问题的答案,于下午的结论区别不大:

1.我们删除数据,导致数据出现错乱

2.他们的系统于我们的系统共用出现了数据冲突

3.数据下发过快,导致存储过程出现问题。

对于 1 跟 3 我是极度不认可的,也在群里跟他们据理力争。数据删除是经过确认的单个用户权限删除,并且是通过设备方提供的 mqtt 主题进行数据删除,并没有直接修改设备数据。怎么回导致所有设备六十多台,所有用户的权限集体失效?

数据下发也是通过 mqtt 进行主题发布,设备方订阅消息进行权限处理,有哪里存在速度快慢问题?

至于 2,不知道设备上的数据存储逻辑,不好判断。

终于,又过了一个小时,设备方给回了个可能的原因。平台数据于我们的数据可能存在目录一致性问题,导致数据可能出现加载问题。这个结论相对来说比 13 就靠谱了很多,最起码是可能的诱因,但是依然无法解释在一个时间段所有设备全部失效的问题。

跟各种设备方打交道多了,永远不知道对面的水平到底是如何的。如果不懂技术,那么这几个闪烁其词的理由也就搪塞过去了。但是解决不了问题,在自己要求下,设备方今天安排研发过来进行现场调试。

有时候觉得挺离谱的,到底是哪里来的自信,给出这些不着边际的答案。不由得又让我想到了之前另外一个设备方给的算法,

哥哥,不会写文档就 tm 别写,老老实实写代码行吗?

这些莫名奇妙的自信,真的让人很上火。当然,我也没想到这个死鸭子事件薄能写第二件。当然,以后还有第三件,第四件。

于是,人生就让这些死鸭子给浪费掉了!折腾到 11 点,连《2077》都没来得及玩!艹!

 

☆版权☆

* 网站名称:obaby@mars
* 网址:https://nai.dog/
* 个性:https://oba.by/
* 本文标题: 《死鸭子事件簿之二》
* 本文链接:https://nai.dog/2024/07/17568
* 短链接:https://oba.by/?p=17568
* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


You may also like

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注