应急预案

最近更新时间: 2024-12-19 17:12:00

1 elasticsearch系统故障

1.1 故障现象

elasticsearch系统故障,无法正常提供服务。

1.2 故障影响

审计日志读取失败或超时严重,新的审计日志数据写入成功率极低或失效,最终导致数据丢失。

1.3 应急处理

  1. 进入cloudtrail_log服务,cd /usr/local/services/qcloud_filebeat-1.0/admin && sh stop.sh, 关闭filebeat的工作,停止数据写入,从而减轻es server的负载。

  2. 处理es系统问题,从控制台云审计页面,当正常查询到数据后,可以认为es恢复正常。

  3. cd /usr/local/services/qcloud_filebeat-1.0/admin && sh start.sh,重新启动filbert。

  4. filebeat会从关闭时的节点继续发送数据,从而规避丢失数据的影响。