数码科技吧 关注:3,686贴子:13,830
  • 1回复贴,共1

浪潮信息InManage,亿级数据告警秒级处理

只看楼主收藏回复

在数字化转型和智能化升级的浪潮中,数据中心的设备数量急剧增加,给基础设施的运维管理带来了前所未有的挑战。以一个拥有超过10万台设备的大规模数据中心为例,每天需要处理近30TB的设备运行数据、亿级的监控指标以及数千条告警信息。在这样的背景下,如何实现对海量并发需求的秒级响应,确保管理平台的稳定运行,以及如何避免将大量设备告警直接推送给客户,进行有效的根因分析,避免误报和漏报,成为了超大规模数据中心管理亟需解决的问题。


IP属地:湖北1楼2024-10-31 16:42回复
    浪潮信息InManage是一款面向数据中心基础设施的智能管理平台,通过统一接口、协议,能够纳管多达400种不同厂商、不同型号的服务器、存储、网络等机型,设备规模最多可达10万台,为超大规模数据中心运维提供智能均衡调度、实时精准告警等管理功能。浪潮信息InManage通过智能均衡作业调度平台,能够在秒级内处理超大规模数据中心亿级实时并发运维管理数据,并基于自研的告警管理框架,实现5秒内响应上千条告警风暴,显著降低告警误报与漏报的风险。InManage不仅创造了金融行业单一数据中心带外管理的最大纪录,还实现了数据中心基础设施全生命周期管理,整体运维效率提升两倍,为超大规模数据中心的稳定、高效运行奠定了重要基础。

    10万+超大规模设备集群管理,面临稳定性与实时性多重挑战
    随着数据中心的规模化发展,服务器数量爆发式增长,数据中心设备规模从最初的1000台增加到10万台,规模扩大了100倍,涵盖了不同年代和厂商的服务器、存储、网络设备等,设备种类多,内存、电源、硬盘、风扇等各类故障发生的不确定性大。对于不同设备的统一管理,一般运维管理平台会在底层屏蔽设备差异,基于基线策略来实现纳管。但随着数据中心规模的骤增,数据中心运维管理的稳定性和故障的实时精准告警等挑战变得日益严苛。


    IP属地:湖北2楼2024-10-31 20:09
    回复