关于数据库服务器连接异常问题的排查
1. 系统日志排查
服务器异常后,根据先恢复后排查原则,对服务器进行了重启操作,重启完成后进行首次登录测试时系统显示正在进行更新。
查看系统日志发现系统于09月15日 18:02:34由系统用户system下发重启请求。
系统 于18:12:31 再次发送重启请求。
![image-20210916095839143]
系统 于18:13:35进行重启以安装系统更新。
2. 阿里云监控排查
根据故障时间点查看监控信息
查看此时间节点内云盘IOPS及内网带宽流量异常。此时系统应在运行安装更新操作。
3. 系统更新排查
3.1 查看更新历史记录为安装了5条系统更新补丁。
3.2 系统配置的使用时间为06:00--18:00
Windows Server2016 最长只能设置12小时,Windows Server2019最长可设置18小时
下图为WindowsServer2019的使用时段配置:
3.3 Windows Server2016系统重启选项无法更改
2019系统无重启选项,但可以关闭自动下载更新。
4. 结论
此次系统异常为Windows Server2016系统自动更新并重启造成,故障持续时间约40分钟(18:15-18:55),重启触发用户为SYSTEM。
系统内部更新配置无取消自动更新配置选项,及无法选择更新重启时间策略,只能通过使用时间来限制重启时间。
5. 整改
-
业务系统及数据库的单点设计架构本身即是整个项目系统的重大隐患;没有高可用的系统架构,一旦任何一个节点出现问题即是灾难性的事件。
-
针对现行操作系统现状,升级至更易灵活配置、选择空间更大的WindowsServer2019数据中心版。
-
修改系统使用时段(12小时区间)
评论区