您好,欢迎访问利联科技官网!    24小时服务热线:400-161-0880    新上东莞BGP服务器火爆热销中!登录  /  注册

三线服务器出现异常的原因

 

相信经常许多用户都知道,三线服务器有时候会出现大面积风暴式的无故心跳异常,同时网络ping包异常,但上联

网络设备ping包正常,这种误报,一般根据具体case具体进行针对性的分析。如根据监控每个机房的上报频率,排

除干扰。


三线服务器会对大部分干扰已经过滤掉,但仍有一部分误报隐藏其中。比如心跳异常,ping异常,都合乎宕机判断

的逻辑,会导致误判成宕机,如导致网卡被打爆,或者重试率高,这种是业务原因导致网络异常,但业务认为不是

异常,需要排除掉。再例如服务器并没有挂掉,但是IO延时和资源占用率各项指标都不正常等场景。针对以上等情

况,增加uptime判断以及带外日志分析排查。宕机时间点探测uptime确定是否发生重启。进一步通过分析日志是否

连续,判断是否发生重启。日志重启特征值匹配,确认是否发生重启。如果还不能确定,使用uptime的时间窗技术

进行重启。仍不能确定的待处理,进入长尾处理名单。长尾再次处理


除此之外,对三线服务器进行全网物理机宕机准确探测与实时发现,可以给宕机分析提供第一现场,获取第一现场

的日志。也可以尽早将宕机数据推送给业务或运营感知并处理,如自动报修,业务迁移等,从而尽可能将业务影响

降到最低。


三线服务器未确认的待处理的,会加入到长尾列表中,像这种分钟级的心跳异常,ping异常,但串口日志一直正常

输出的情况,一般就是某种死机,死到连网络都不通的场景。会观察一段时间,一个固定时间窗内仍未恢复或重

启的话,就暂时报宕机。后期会把这种死机单独找划分归类。更重要的是,准确的宕机发现数据可以为宕机预测

提供准确的标注数据,为后期宕机预测提供数据基础,并且这些数据提供给运营部门进行整体分析,提升处理效率。


您可能还会对下面的文章感兴趣: