elasticsearch系统故障
故障现象
elasticsearch系统故障,无法正常提供服务。
故障影响
审计日志读取失败或超时严重,新的审计日志数据写入成功率极低或失效,最终导致数据丢失。
应急处理
- 进入auditreport 服务。
- 先关闭健康检查,vim /tce/healthchk.sh 第一行加 exit 0。
- cd /data/release/tcloud-cloudaudit-auditreport/scf_report 执行 bash service.sh -t stop,停止数据写入,从而减轻es server的负载。
- 处理es系统问题,从控制台云审计页面,当正常查询到数据后,可以认为es恢复正常。
- cd /data/release/tcloud-cloudaudit-auditreport/scf_report && bash service.sh -t start,重新启动auditreport服务进程消费kafka数据写入ES。
- auditreport关闭期间,数据不会被消费,数据保存在kafka,auditreport重新启动,会从kafka拉取数据,历史数据不会丢失。