蓝汛ChinaCache CDN加速节点遍布海内外,服务器数量多,业务线庞杂。为了先于客户发现异常,快速修复异常,蓝汛建立了完备的智能监控平台。目前,该系统已经完成对设备、网络、业务、应用这四个维度的有效监控,实现了异地容灾、服务树的监控配置、自动故障分析处理、多点链路探测、边缘日志分析等功能。
智能监控平台每天都要处理大量报警事件,但是95%以上的报警事件都是简单故障,例如进程退出,磁盘空间不足,时钟偏移。对于这类简单故障,蓝汛运维人员已经提出了明确的处理方案,并将方案提炼为故障处理的脚本。监控平台监测到这类故障时会在第一时间调用Saltstack 执行修复动作,修复进展和修复结果会在报警事件界面实时更新。而对于不能修复的故障,系统也可以根据既有分析脚本给出故障原因,等待运维人员进一步处理。
边缘设备到上层设备,上层设备到源站的链路质量对CDN服务质量起到决定性作用。所以,为了准确及时感知链路的质量,实现对数万条链路质量的实时监控,智能监控平台使用了自主研发的探测任务调度器,并按照多种探测策略进行数据收集,运维人员可以以此数据为依据及时调整解析,选取最佳回源链路。
智能监控平台开发的 sonar-logmon 程序具有灵活可靠、分析逻辑热更新、实时汇总计算、低资源占用等特点,实现了灵活的日志汇总计算功能。基于 sonar-logmon IMP 已经实现了重点频道状态码,频道下载速度,命中率,回源信息,慢时/慢速, 回源监控等多个需求。
智能监控平台的高可用、可伸缩、配置灵活简单、快速修复故障、实时分析海量线上日志等优势,可以最大限度的保障用户的网络安全。
智能监控平台每天都要处理大量报警事件,但是95%以上的报警事件都是简单故障,例如进程退出,磁盘空间不足,时钟偏移。对于这类简单故障,蓝汛运维人员已经提出了明确的处理方案,并将方案提炼为故障处理的脚本。监控平台监测到这类故障时会在第一时间调用Saltstack 执行修复动作,修复进展和修复结果会在报警事件界面实时更新。而对于不能修复的故障,系统也可以根据既有分析脚本给出故障原因,等待运维人员进一步处理。
边缘设备到上层设备,上层设备到源站的链路质量对CDN服务质量起到决定性作用。所以,为了准确及时感知链路的质量,实现对数万条链路质量的实时监控,智能监控平台使用了自主研发的探测任务调度器,并按照多种探测策略进行数据收集,运维人员可以以此数据为依据及时调整解析,选取最佳回源链路。
智能监控平台开发的 sonar-logmon 程序具有灵活可靠、分析逻辑热更新、实时汇总计算、低资源占用等特点,实现了灵活的日志汇总计算功能。基于 sonar-logmon IMP 已经实现了重点频道状态码,频道下载速度,命中率,回源信息,慢时/慢速, 回源监控等多个需求。
智能监控平台的高可用、可伸缩、配置灵活简单、快速修复故障、实时分析海量线上日志等优势,可以最大限度的保障用户的网络安全。