遇到了线上故障,你的第一反应是什么?
遇到了线上故障,你的第一反应是什么
1、线上故障的分类
- 业务报错持续发生
- 接口响应时间变长
- 接口拒绝响应
- cpu异常飚高
- 内存异常飚高
- 数据库连不上
2、故障处理的总的思路
- 先对故障进行简单的分类分析,如果在5分钟内有了大致思路那就继续分析几分钟;若是毫无头绪,先对集群中的机器其中的一台进行重启处理,若是重启能够缓解问题,继续重启其他的,保留一台留作问题分析即可
3、不同的故障的处理思路
- 若是有持续的日志报错,分析错误日志一般能够发现问题
- 获取不到数据连接的问题,一般分析数据的连接池的配置以及当前数据操作线程的情况,可能发生线程block以及线程停顿的情况
- 接口响应变长或cpu异常飚高一般是系统中有线程存在block或者线程繁忙的情况
- cpu异常飚高但是无明显报错的情况一般需要观察jvm的gC情况,dump后进行内存分析
- 内存异常飚高一般可能是出现死循环或者内存泄露
4、故障分析中可能会用到的工具
- 调用链跟踪工具
- es日志查询
- mat jvm分析
- arthas在线诊断工具
- Bistoury 在线分析工具
版权声明:本文为人工博客的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
本文链接:https://www.gzcx.net/article/1719
正文到此结束