应急预案

最近更新时间: 2024-12-19 17:12:00

elasticsearch系统故障

故障现象

elasticsearch系统故障,无法正常提供服务。

故障影响

审计日志读取失败或超时严重,新的审计日志数据写入成功率极低或失效,最终导致数据丢失。

应急处理

  1. 进入auditreport 服务。
  2. 先关闭健康检查,vim /tce/healthchk.sh 第一行加  exit 0
  3. cd /data/release/tcloud-cloudaudit-auditreport/scf_report  执行 bash service.sh -t stop,停止数据写入,从而减轻es server的负载。
  4. 处理es系统问题,从控制台云审计页面,当正常查询到数据后,可以认为es恢复正常。
  5. cd /data/release/tcloud-cloudaudit-auditreport/scf_report && bash service.sh -t start,重新启动auditreport服务进程消费kafka数据写入ES。
  6. auditreport关闭期间,数据不会被消费,数据保存在kafka,auditreport重新启动,会从kafka拉取数据,历史数据不会丢失。