• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

解锁服务器管理新路径|智能诊断 全能保健医生

【发布时间:2024-09-02】

数字化时代,企业的发展离不开强大的算力作为支撑。服务器作为算力的载体,其稳定运行直接关系到企业的运营效率和业务连续性。正如人体需要定期体检来预防疾病一样,服务器也需要一位专业的“私人医生”来保持健康度。今天,我们就来聊聊紫光股份旗下新华三集团智能管理中枢HDM2的智能诊断技术,这位服务器的“健康守护者”。

服务器运维的痛点,你中了几招?

在繁忙的数据中心,服务器运维面临着诸多“痛点”,这些“痛点”就像是人体的“小毛病”,时不时会跳出来捣乱。

1.“诊断工具不完善的尴尬

许多传统服务器的诊断工具,就好比已过时的医疗器械,不仅无法提供详细的系统状态信息,还让运维人员在使用过程中感到不便。

2.“故障信息收集困难的无奈

当服务器出现故障时,收集告警日志的过程往往充满挑战。重要信息遗漏、反复收集,让运维人员疲于应对。

3.“故障定位困难的困扰

在大量的信息中,找出有助于诊断的信息,无异于大海捞针。故障类型、位置及原因难以定位,让运维人员倍感压力。

4.“维护工作繁重的疲惫

运维人员需要花费大量时间巡检和排查故障设备,这不仅增加了维护成本,还让运维人员疲惫不堪。

HDM2智能诊断 服务器的全能保健医生

面对上述挑战,新华三智能管理中枢HDM2的智能诊断技术应运而生。新华三拥有专业的大数据训练团队与平台,持续汇聚AI训练所需的关键部件训练样本,并基于业界先进的机器学习技术持续进行数据训练,所得模型全方位部署于HDM、UniSystem、云端运维系统上,可实现对服务器全部件、全状态、全带外的运行状态实时监测,让运维工作更加简便、主动。

01方案架构与医术优势

HDM2智能诊断技术的方案架构基于HDM、UniSystem和BIOS等组件,具备以下“医术”:

全面体检

通过多种途径监控硬件设备,实现对服务器全部件、全状态的实时监测,确保“健康隐患”无处藏身。

精准诊断

利用SDS(Smart Diagnosis System)对服务器各部件进行监控,内置1500多条规则进行深度故障诊断和预测,诊断准确率可达95%以上。

高效治疗

覆盖故障明确、故障自愈、故障隔离、故障修复、故障预警等多个维度,提升运维效率,降低维护成本。

02特色疗法内存故障修复与硬盘故障预测

内存故障修复——让服务器保持好记性

HDM智能诊断技术采用英特尔®内存故障预测技术,根据内存故障在空间和时间上的分布情况,进行内存故障预测及分析,提前对潜在故障点进行预防性处理,提升内存可靠性,保证系统的稳定性,有效预防“记忆梗塞”发生,确保服务器“思维敏捷”。

内存是服务器的核心部件。常见内存错误包括可纠正错误CE和不可纠正错误UCE。CE通常是单比特错误,可以通过错误校正码(ECC,Error Correcting Code)进行检测和修复。尽管CE能被修复,但频繁的CE事件可能是硬件退化的早期迹象,需要及时追踪和应对。UCE是多比特错误,不能被ECC修复,通常会导致系统崩溃或者进程崩溃引发数据损坏,是服务器的重大风险点。

为了减少内存故障引起的服务器宕机风险,内存修复技术应运而生。内存修复技术旨在通过提升检测、隔离和修复内存错误的能力,从而提高服务器的稳定性和可靠性。这些技术包括硬件层面的内存纠错和软件层面的错误检测与处理方法。

descript

内存智能修复流程

新华三内存智能修复技术提供内存故障智能预测与自愈修复能力,具备以下优势:

通过AI技术可有效预防超过40%的内存硬件故障导致的非计划宕机。

基于SMI中断通知,降低轮询资源占用和通信交互的消耗,减少对业务的干扰。

可根据配置的页大小、档位,结合安装的内存数目,动态预估可隔离上限,避免无限制的隔离。

提供实时内存健康状况可视化功能,在HDM界面直观展示内存智能修复结果。

descript

硬盘故障预测——数据守护者

伴随数据的存储需求与日俱增,大规模海量数据存储中心成为必不可少的基础性设施。在当前的数据中心存储系统中,机械硬盘HDD和固态硬盘SSD仍然是主流的存储设备。机械硬盘生命周期通常为3到5年,在2到3年后故障率明显升高,导致换盘量陡增。据统计,在服务器硬件故障中,硬盘故障占比达到48%以上,是影响服务器运行可靠性的重要因素。

目前数据中心存储系统普遍采用RAID或纠删码等机制来提供硬盘高可靠性,在硬盘发生故障后进行数据恢复,这种方式牺牲了较大存储空间并增加了资源开销。而硬盘故障预测技术通过监控运行中的硬盘,采集并记录硬盘的运行时状态数据,随后根据算法预测硬盘是否即将发生故障。这种方法能够提前预测硬盘的故障,从而避免或减少故障可能造成的损失,还能降低数据恢复的成本。

新华三服务器使用HDM周期性收集HDD SATA盘的SMART数据,并结合集成到UniSystem中的预测算法进行硬盘故障预测,能有效对故障风险盘进行提前检出。其中SMART数据源来自数十万个开源数据和H3C现网的硬盘SMART数据收集,采用LightGBM算法和五折交叉验证评估方法,能达到提前30天有效检出HDD SATA风险故障盘,检出率达到80%以上。

descript

硬盘故障预测全流程

UniSystem是新华三自主研发的服务器智能管理中枢软件,在硬盘预测方面,提供SATA-HDD硬盘故障预测,提前告知用户硬盘风险。

descript

硬盘故障预测展示

新华三智能管理中枢HDM2的智能诊断技术,就像一位不知疲倦的“保健医生”,时刻守护着服务器的健康。在内存故障修复和硬盘故障预测方面,它展现了高超的“医术”,让企业数据中心的运维更加高效、稳定。未来,新华三集团将继续秉持“精耕务实,为时代赋智慧”的理念,实现这位“保健医生”持续进化,为企业数字化转型提供最强有力的“健康保障”。

新华三官网
联系我们