
AI重塑ICT系统的“规、建、维、优”
摘要
当前ICT系统在智能化转型中面临数据孤岛、垂直领域模型泛化能力弱、AI幻觉及部署成本高等挑战,制约了“规、建、维、优”全流程的自动化与精准性。针对上述问题,本文提出基于新华三“智原生”架构的解决方案:依托灵犀运维智能体,通过端云协同的AI技术重塑 ICT 系统“规、建、维、优”全流程——端侧部署多种AI算法实现本地感知与快速响应,云侧融合大模型、RAG与多智能体协同技术支撑复杂推理与跨域决策。该方案已在通信、制造、交通等领域落地,应用于故障预测、根因定位与智能巡检等场景,显著提升运维效率。未来有望通过模型优化与生态协同,推动ICT系统向高阶自治演进。
关键词
智原生;灵犀运维智能体;大模型;运维
引言:ICT 系统的 “智变” 热潮
随着数字化的持续快速发展,传统 ICT 系统设施规模与复杂度激增,其业务需保证7x24小时连续服务、高效交付变更及快速故障恢复,在行业技术知识更新快且跨域协作频繁下,单领域专家难以应对,ICT系统大运维(规、建、维、优)面临诸多挑战。
AI技术从早期的逻辑推理到专家系统,再到当下的机器学习,智能化能力持续演进,尤其随近几年大模型技术的快速发展,推动智能体基于大模型技术构建“感知-决策-行动-学习”的自闭环能力。当下在很多领域通过大模型结合检索增强生成等技术,已经出现很多实用应用落地。可以说AI的逻辑推理与自主决策能力已达到实用水平,能在复杂场景中自主规划、执行任务并动态优化,通过AI技术让ICT系统大运维实现全面智能、自愈成为可能。

图1 大模型及相关技术演进
新华三将通过AI技术强化全系列产品智原生(AI-Native)能力,为ICT系统“规、建、维、优”实现全面智能、自愈提供技术支撑。
1 智原生(AI-Native)架构基础解析
在ICT系统所在数据中心、数字园区、广域网场景中,通过AI技术结合新华三云、网、安、算、存、端及配套运维软件,将ICT行业知识记忆后,建立一个可以对ICT系统进行场景规划、工具调用(如:ICT系统采集工具、ICT系统拓扑工具、ICT系统控制工具等),并在面对具体规、建、维、优细分场景时可以智能的采取对应的行动,即实现了ICT系统的智原生,我们称之为灵犀运维智能体。当前ICT智能体实现典型业务场景如:ICT知识问答、故障诊断、智能问询、智能巡检、故障预测、告警降噪/根因分析、安全载荷分析等。

图2 新华三灵犀运维智能体
ICT智能体技术将持续向设备端、云端同时演进。在设备端通过AI算法及端侧小模型逐步实现AI可管、可控,向“设备即智能体”方向演进。在云端,通过大模型、多模型结合实现网络智能体、安全智能体、云智能体等ICT领域智能体,各领域智能体可再次整合实现ICT智能体,进而将能力外溢支撑各行业。并由提供平台能力向提供独立智能体能力方向演进,智能体间可进行多智能体协同。

图3 ICT智能体演进策略
在设备端,基于传统机器学习算法(如:Holt-Winters、Greedy等)、深度学习算法(如:XGBoost、LSTM等)、强化学习算法(如:DQN深度强化学习、Q-Learning)结合设备端ICT业务数据与设备深度融合,实现设备即智能体的智原生演进,典型应用场景如:硬盘故障预测、内存故障预测、智能能耗管理、智能风扇调节、AI射频调优、AI ECN、IPCC、光模块预测、关键KPI指标预测等。让AI真正赋能到ICT各个业务场景中,网元设备具备感知、分析和自主决策等智能能力,实现真正的设备及网元智能体。
在云端,基于大模型不仅可以提供各类ICT系统知识问答能力,同时结合RAG、ICT各类工具能力实现的智能体,可以针对ICT系统任务进行理解、规划,通过调用对应的工具能力获取设备静态及实时数据,并结合大模型强大的推理、思考能力进行实时分析,生成相关任务结论输出。典型应用场景如:智能排障、告警聚合/根因分析、智能巡检、智能配置变更、运维工具智能辅助、载荷分析、钓鱼软件分析识别等。AI技术在深入融入云端ICT各业务场景中,统筹管理某个专业领域的设备和资源,实现各个场景化的单体业务领域智能体。
基于网元智能体和领域智能体,横向打通数据链、纵向贯通控制链,实现多个领域智能体相互协作,共同实现更复杂的跨域业务目标如网络、存储、计算智能体协作提供端到端场景能力。首先,设备智能体通过NetConf、SNMP、GRPC等协议实现网元侧控制流、数据流与ICT系统工具打通。其次,ICT系统工具通过MCP协议与云端AI中台打通。最后对于多领域间智能体通过A2A协议进行打通,从而建立多智能体协同的完整ICT智能体系。
ICT智能体整体逻辑上需要四个层次,与用户直接进行交互的统一Portal交互入口层,通过该入口可以访问到业务系统内、系统间所需的各类业务。支撑用户交互层的是业务系统层,该层主要提供两类能力,第一是云、网、安、算、存、端各类管理工具软件。第二是支持规、建、维、优各阶段智能体业务。为实现业务层能力需要有强大的平台能力,该层首先是要具备系统间共享的数据中台,其涵盖各类ICT系统数据,如:各领域的告警、日志数据、知识数据、运维经验数据等。其次是支持多种模型、多种硬件架构的推理服务层,为智能体提供推理大脑。此外,还要具备一个智能体技术支撑中台,用于智能体实现过程中的必备能力支撑,包括思维链编排能力、RAG向量知识管理\解析\排序等相关能力、MCP/A2A等相关标准协议支撑能力。最后是实现各智能体、工具软件所需的统一基础地盘能力,包含统一认证能力、统一权限管理、统一资源、容器化等。有了强大的平台支撑即可实现智能体能力,但要做到落地ICT系统运行,还需要具备多种部署能力,包括针对中小、分散建设的用户提供云部署模式,针对大型系统、数据要求高的用户提供完整私域部署模式,针对部分安全要求适中,需要云上资源的用户提供混合部署模式。

图4 灵犀运维智能体架构
基于如上智能体架构建立的端侧智能、云端智能,并实现云端多智能体协同的端到端能力,重塑ICT系统的规、建、维、优,实现智原生。
2 智原生重建ICT“规、建、维、优”应用场景
在一个ICT系统建设前,规划十分重要,系统规划一旦出现问题会对后期造成极其严重的影响,轻则影响系统的业务承载能力、稳定性,重则可能导致系统重新建设,造成严重的经济损失。因此,当前在一个ICT系统建设前会投入大量的人力、物力对系统进行充分的设计、验证、评估。通过为系统注入AI能力,ICT智能体利用多年积累的ICT知识、专家经验,进行需求的快速理解、推理分析,输出系统设计初稿,再由专业人员给进行核实、校准即可,可以节省大量的系统设计时间。系统设计完成后,对于系统的验证仍需要投入大量的人力验证方案、合规检测等。通过ICT智能体中记忆的专家经验可快速输出验证方案,借助合规性文件通过RAG外部知识挂载,结合模型推理能力可以快速完成合规性检查。规划期,AI还可以针对各个细节场景环境进行赋能,提升规划期效率。
系统建设期间往往现场工程师会根据具体的现场设备情况,实时确认相对适合的软件版本、对云、网、安等设备进行初始配置(脚本实现、手动),此过程不仅费时费力,还容易出错。借助大语言模型实现的ICT智能体,可以通过外接各供应商产品版本发布手册,结合模型推理、分析能力,实现精准版本推荐。对于常用的Python、Shell、Bat等脚本,当前模型已经具备准确的代码生成能力,可以很好的满足ICT领域使用。通过模型微调、结合RAG知识,借助模型推理能力,可实现,快速的配置生成能力。借助AI能力,对建设期可以加快建设系统速度,简化工程师学习技能门槛。
ICT系统建设后,运行维护是持久战,期间即要保证系统的稳定运行时间,又要在故障发生时降低故障恢复时间。日常运维工作复杂,不仅面对各厂商提供的专业运维工具学习成本高,而且还存在大量的重复性工作,如:日常巡检、报告输出等。通过AI技术,在端侧的预测能力,可以在故障发生前对网、安、算、存等硬件进行寿命、故障预测,提前发现问题做好备案,增强系统的稳定运行。对云业务资源使用情况进行预测,自动扩、缩容,在业务用户无感下,即保证业务稳定运行,又可节省不必要的开销成本。通过ICT智能体学习到的供应商多年沉淀运维经验,对于复杂、无明显告警的故障发生后,当前完全靠工程师经验,经验越丰富的老专家,排查效率高一些,但仍需要花费数小时时间。此段时间,对业务系统造成严重影响,轻则业务质量下降,重则业务完全停滞,带来经济损失极其严重。通过AI技术将众多“老专家”经验赋予智能体,在该类问题发生后,智能体根据强大的专家经验进行分析、规划需要排查的关键业务点,准确、快速的找到故障发生根因,并结合其强大的推理能力,生成处置建议。较传统排查方式效率从数小时提升至分钟级,大大降低了故障恢复时间,减少经济损失。日常运维过程,面对大量重复性工作,如巡检,报告输出,通过ICT智能体可以个性化、准确规划不同客户的巡检任务,并调用各类相关巡检工具对系统进行巡检,生成相关报告,及时提早发现各类问题,极大的减少了工程师重复劳作。借助AI能力,面对各类运维工作,可大大提高运维效率,更好的保障系统的稳定运行,减少故障恢复时间。
系统运行期,随着业务系统的持续增加,基础设施修修补补,导致ICT系统更复杂、庞大。针对一个数年的ICT系统,其存在大量的优化空间,如:网络流量调优、系统能耗调优、网络控制调优等。通过端侧小模型,结合云侧大模型可进行持续的系统优化,如:在数字园区场景下,无线的AP射频调优,可提高无线用户使用体验。在智算蓬勃发展的今天,越来越多的网络采用RoCE网络,通过AI技术实现AI ECN、IPCC等智能调优,不仅可更好的提高网络利用率,同时也大大提高昂贵的GPU资源使用率。借助AI能力,面对各类复杂环境持续、智能调优成为可能,极大的提高了用户对ICT系统的使用体验。
当下,百行百业中,越来越多的企业通过AI Native对ICT系统进行智能化升级,以提高其系统的智能、自愈能力。
3 行业实践案例深度解析
在电信行业,ICT系统的稳定、可靠运行要求非常高,其核心系统对SLA要求99.999%。运营、维护该系统面临众多挑战。今年多家电信运营商都加大了AI赋能ICT规、建、维、优的实践探索。如在某运营商已经和新华三深度合作,落地故障诊断、安全/网络告警聚合分析、智能巡检、LinSeer ICT统一知识问答、安全运营智能报告生成、服务器智能预测等多个业务场景。部分场景准确性达到90%以上,对日常运维工程师提供辅助能力,极大提高了日常运维效率。
近年新能源汽车领域的企业间竞争日趋严重,各企业都在积极推进工厂办公环境和生产车间的数字化升级,以期提升生产办公效率。在与国内多家大型车企的合作中,新华三通过ICT智能体赋能新建工厂园区网,极大提升了园区无线网络连接质量和用网体验,实现高效办公。
交通行业,尤其高速公路,日常联网收费系统复杂、压力大,安全要求极高。新华三通过ICT智能体提升了某省级高速公路信息系统安全防护能力,将一个覆盖范围达7万公里,包含5万多台设备的复杂系统,从“人防+技防”升级为“智能驱动”的主动防御,显著提升了系统安全性。
4 挑战与未来展望
智原生(AI Native)架构重塑ICT系统的规、建、维、优,任重道远。其ICT智能体形态在落地过程中,仍面临着数据不统一、数据杂乱、模型对ICT垂直细分场景理解不充分、模型推理性能较低、成本较高、部分场景出现幻觉等不准确现象。这些问题都需要我们逐个进行细化,拆解问题,训练、培养模型,逐渐循序渐进的增强ICT智能体能力,根据业界AI技术的演进,相信未来一定可以打造更加智能、高效、低成本的ICT智能体,为ICT系统规、建、维、优各个环节提供智能保障,让系统逐渐实现自治、自愈。



浙公网安备 33010802004375号