日常巡检

最近更新时间: 2024-12-19 17:12:00

服务可用性检测

根据架构图找到各服务模块,通过对服务的域名+端口进行curl,验证系统各模块是否正常,例如:

  1. kg tcloud-tcenter-platform-cloudtrail

找到容器IP,比如: 192.168.241.175 curl -v -d '' http://192.168.241.175:50030 header 状态码返回 200,则表明访问服务正常。

  1. kg  tcloud-cloudaudit-auditreport

进入pod里面,ps -ef查看python进程是否存在startAuth、startSignature、startSen进程,如果存在,则表明访问服务正常。

服务健康性检测

登录租户端,进入到控制台云审计页面,查看是否有数据,数据时间是否及操作是否正常,点击加载更多,是否可以看到更多合法数据。等待5分钟后,再次点击加载更多,观察是否返回异常,异常是符合预期的应答,因为数据快照过期了。

服务工作状态检查

执行ps aux | grep QC, 观察master进程和 worker 进程是否正常运行,worker进程的数据是否符合预期。

审计日志生成检查

  1. 进入auditreport服务

  2. cd /data/log/audit

    打开当前时间的文件,观察是否有报错,如果没有异常日志,一直有正常日志产生,,则服务正常。