涨薪技术|Prometheus定义主机监控告警实例

张开发
2026/6/7 17:07:42 15 分钟阅读
涨薪技术|Prometheus定义主机监控告警实例
Prometheus 是一个强大的开源监控和告警工具支持通过灵活的规则定义来监控主机如服务器、容器等的运行状态。上节分享了有关Prometheus的告警规则今天给大家分享实例定义主机监控告警修改Prometheus配置文件prometheus.yml,添加以下配置rule_files:- /etc/prometheus/rules/*.rules在目录/etc/prometheus/rules/下创建告警文件hoststats-alert.rules内容如下重启Prometheus后访问Prometheus UIhttp://127.0.0.1:9090/rules可以查看当前以加载的规则文件。切换到Alerts标签http://127.0.0.1:9090/alerts可以查看当前告警的活动状态。此时我们可以手动拉高系统的CPU使用率验证Prometheus的告警流程在主机上运行以下命令cat /dev/zero/dev/null运行命令后查看CPU使用率情况如下图所示Prometheus首次检测到满足触发条件后hostCpuUsageAlert显示由一条告警处于活动状态。由于告警规则中设置了1m的等待时间当前告警状态为PENDING如下图所示如果1分钟后告警条件持续满足则会实际触发告警并且告警状态为FIRING如下图所示

更多文章