告警机制说明
1、告警静默(缓存)时间,同一条告警通知,默认2小时内不会重复发送,如下配置server/config/application.yml,可以修改。
若某个下线的告警资源恢复上线,则会清除该资源的告警缓存,再次下线后会继续告警。
#告警缓存时间间隔(此时间段内同一告警通知不再重复发),单位秒,默认120分钟。此期间只是不推送告警到第三方(邮件钉钉微信等)了,系统监控扫描工作仍正常进行 warnCacheTimes:
7200
比如一个服务接口,下线后,发送告警通知后,2小时内不会重复发告警通知,但是如果它在2小时内上线了(会发送恢复通知),再次下线,还是会发告警通知
如果它在2小时内一直处于下线状态,没有变化,则不会重复发告警通知
2、进程、端口、文件防篡改、docker,这些监控资源添加后,agent会在3分钟内同步到信息,之后就会正常进行持续监测,
所以刚添加完没有监控信息,这是正常的,不用担心
3、主机、进程、端口、文件防篡改、docker、数据源、服务接口、数通PING、数通SNMP,这些监控资源下线/上线恢复会有告警通知
其中,主机上线和下线会在5分钟内通知,新加入的主机也会发送上线通知
进程、端口、文件防篡改、docker这些资源下线后实时通知(2分钟内,以agent上报时间为准),恢复上线后会在5分钟内通知
数据源、服务接口、数通PING、数通SNMP这些资源下线后实时通知,恢复上线后实时通知
4、cpu使用率、内存使用率、cpu温度、上下行速率、系统负载,默认2分钟(以agent上报时间为准),超过告警阈值就会发送告警通知,
没有恢复通知
5、磁盘空间,默认30分钟扫描一次,不能自定义,超过告警阈值就会发送告警通知,没有恢复通知
6、日志文件监控,默认10分钟(可在agent/config/properties修改),扫描到关键字就会发送告警通知,没有恢复通知
7、文件防篡改保护默认每30分钟扫描一次,若发现文件被篡改或删除,然后判定,发送下线告警通知,恢复后发送上线恢复通知
8、主机未上报数据超过监控上报时间,系统会在2-3分钟确认,然后判定下线
9、服务接口(默认10分钟,可server配置文件修改)、数据源(默认60分钟,可在server配置文件修改)、数通设备(默认15分钟,可在server配置
文件修改)监控以配置扫描间隔时间为准,发送下线告警通知,恢复后发送上线恢复通知
10、所有监控资源下线后,系统仍会继续扫描检测,不会停止.但是下线后,更新时间不会变化了,直到资源重新上线才会继续更新