QYJS    前沿技术
前沿技术
面向多行业场景的全栈AI智能云架构设计与实践
文 | 新华三集团云与计算存储产品线 李熊发

摘要

当前算力网络与生成式AI技术正共同推动社会迈向AGI时代,企业AI建设面临算力释放难、落地门槛高、运维复杂及安全风险等核心挑战。为此,新华三推出AI智能云全栈解决方案,通过打造四大核心支柱:第一,构建高效算力底座,通过云原生技术池化并智能调度多元异构算力,实现算力的敏捷供给与高效利用;第二,提供全栈AI开发工具链,以一站式云门户整合数据、训练、推理及MaaS服务,大幅降低AI应用开发与部署复杂度;第三,创新Agentic管控体系,基于多智能体协同实现智算环境的全景可观测、自主决策与主动优化,保障训练任务的高效与可靠;第四,构筑AI全生命周期安全防护,通过四层纵深防御体系应对模型越权、数据泄露等新型威胁,确保AI创新安全可控。该方案系统性地解决了企业从资源到应用、从开发到运营的全链路难题,铺平AI建设道路,助力百行百业从“拥有算力”到“驾驭智能”。

关键词

AI Infra;Agent Infra;算力调度;AI开发工具链;可观测性;智能体;AI安全

引言

随着国家“东数西算”工程的深入推进和“新基建”战略的持续深化,全国一体化算力网布局初具雏形。各地智算中心建设如雨后春笋,标志着算力正如同工业时代的水电一样,成为驱动数字经济发展的核心生产要素。与此同时,以大语言模型为代表的生成式AI技术浪潮,正将人工智能推向通用人工智能(AGI)的临界点。市场项目已不再满足于基础的算力供给,而是纷纷转向更具前瞻性的智能体(AI Agent)业务规划,寻求能理解、规划、执行复杂任务的数字生产力。在此背景下,企业在AI建设的过程面临算力释放不充分、AI落地难度大、算力设施维护难、AI安全风险高等问题。

新华三集团以CloudOS作为主要载体,协同融合多个组件,软硬协同打造高性能、全场景AI智能云方案。方案提供两大类Infra(AI Infra和Agent Infra)、三大平台(通智一体云平台、AI开发平台、数据治理平台)、五类服务(IaaS、PaaS、MaaS、AI安全、AI运维运营),集成五大硬件智能调度(多元异构算力、高性能分布式存储、超节点、高性能网络、AI安全设备的智能调度),以此构建通智一体、全栈融合、云边贯通、灵活多变的智能云,针对企业AI建设的问题提供四大支柱:高效算力底座、全栈AI开发工具链、Agentic管控体系、AI全生命周期安全防护,助力企业从“用AI”走向“运营AI”。

图1 新华三AI智能云方案

1 第一大支柱:高效算力底座

面对AGI对海量、异构、高效算力的极致需求,传统的孤立算力供给模式已难以为继。《2025年全球AI算力基础设施行业发展趋势研究报告》进一步显示,2025年行业规模预计突破8500亿美元,专用AI加速器出货量占比预计达到服务器市场的42%。市场的蓬勃发展与高度复杂性,正呼唤着算力供给模式的根本性变革。国家政策的顶层设计正强力推动算力基础设施向“全国一体化调度”与“智能服务”的新范式演进。2025年发布的《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》明确提出,要“完善算力智能调度能力,统筹通用算力、智能算力、超级算力协同计算”。与之配套的《全国一体化算力网智算中心算力池化技术要求》等标准,其核心目标正是实现全国算力资源的“一盘棋”统筹和“一张网”调度。这为通过技术手段将分散的算力资源整合为统一服务池提供了明确的战略指引。

新华三响应这一趋势,通过虚拟化、容器化等云原生技术,面向AGI场景需求推出智能云方案,基于Kubernetes的云原生统一调度引擎与异构资源抽象层,将地理上分散、架构异构(如GPU、NPU等)的智算中心硬件资源抽象、解耦打破物理节点与硬件架构壁垒汇聚成一个逻辑统一的全局共享算力池,实现跨设备、跨架构的智能调度与高效协同,赋能用户聚焦业务创新与价值创造。首先新华三AI智能云方案采用超节点、高性能分布式存储、高性能网络等先进硬件避免性能瓶颈,并使用计算、存储、网络多维信息构建全局算力拓扑图,基于全局拓扑实现算力最优调度,减少数据搬运、网络拥塞,提升资源利用率。同时以“云数智一体”为核心战略,提出Unified AI技术,将新华三整个AI Infra能力整合到云中,充分利用云智能调度能力、资源池化能力,实现灵活算力切分和异构算力聚合,能够将超节点、标准服务器、一体机、各种国产GPU算力卡统一进行资源调度,同时支持基于细粒度算力切分技术,实现最小1%粒度的GPU资源池化与隔离,最大化避免碎片资源浪费,使得GPU资源的实际利用效率提升80%以上。在此之上优化推理框架,通过负载感知请求调度、分级KV Cache智能缓存、PD配比动态调控,进一步提升整体计算性能。

智能云方案通过对底层异构算力资源的深度整合与封装,将复杂的硬件差异转化为可标准化调度、弹性供给的算力服务,实现了计算、存储、网络资源的全栈池化与统一管理,支持超节点、一体机及多元国产GPU等异构资源的弹性扩展与云化部署。基于此智能云方案将全国一体化算力网的宏伟蓝图落地为支撑AGI时代发展、演进的可靠算力底座,强调Scale-up和Scale-out的灵活扩展,真正实现“资源即服务”,推动从传统云到智能云的范式升级。

图2 高效算力底座

2 第二大支柱:全栈AI开发工具链

为响应国家对于降低AI应用门槛、促进产业智能化的号召,智能云方案提供算力、数据、训推一站式闭环的云门户,旨在将复杂的AI生产流程转化为简单可靠的标准化服务。这一门户不仅提供资源的统一视图,更是承载从数据准备、模型训练、推理部署到运营监控的全流程大模型工具链的核心载体。同时,《国务院关于深入实施“人工智能+”行动的意见》指出,需要推动软件信息服务企业智能化转型,重构产品形态和服务模式。培育人工智能应用服务商,发展“模型即服务”、“智能体即服务”等,打造人工智能应用服务链。智能云方案正是对这一顶层设计的精准实践。它通过高度集成与智能化的设计,将数据治理、模型开发、效能评估与服务编排等环节无缝衔接,形成了业内完整度领先、开箱即用的工具链体系,极大简化了从原始数据到智能应用的生产过程。

在易用性层面上,智能云方案的UE和UI页面部分通过直观的图形化界面和向导式流程设计,屏蔽底层技术复杂性让用户能够聚焦业务创新,同时提供标准化、模块化工具组件,确保了从实验到大规模生产部署再到投入业务应用的平滑过渡。智能云工具链实现了各环节间的无缝衔接与数据自动流转,确保了从原始数据输入到最终智能应用输出的端到端闭环,在流程整合的深度与广度上处于业内领先地位。

面对企业在AI应用落地过程中普遍存在的技术门槛高、工具链断裂、从开发到生产的流程冗长等核心痛点,智能云方案协同绿洲大数据平台、灵犀使能平台,打造全场景AI智能云方案,提供业内领先的覆盖数据工程服务(提供从数据采集、治理到标注的全流程工具)、智算调度服务(统一调度异构算力,实现资源的最优匹配与弹性供给)、模型训推工具服务(提供覆盖模型开发、训练、评估、压缩与部署的一站式平台)、MaaS服务(集成自研、开源及商业大模型,提供开箱即用的模型API与精调能力)再到AI Agent开发服务(提供智能体编排框架与低代码开发工具)的智算工具链,并构建百业灵犀大模型、第三方商业大模型、开源模型的立体矩阵,满足全场景智能化需求,全面支撑从底层资源调度至上层业务输出的全场景AI应用,从根本上解决了“资源难统一、流程难贯通、应用难落地”的三大难题,显著降低大规模AI模型开发与部署的技术复杂度与时间成本,有力促进了“算力资源、数据资源向智力资源的高效转化”,加速客户业务智能化创新。

图3 全栈AI开发工具链

3 第三大支柱:Agentic管控体系

在以大模型训练为核心的智算时代,智能云核心挑战之一在于如何通过AI驱动的智能化手段,高效协同并管理和监控大规模、异构的复杂环境。GPU集群的效能与可靠性已成为驱动人工智能发展的核心生产力。传统的运维与调度模式,在面对动辄成千上万卡、任务周期漫长、资源耦合紧密的大模型训练场景时往往捉襟见肘,导致宝贵的GPU资源利用率低下、训练任务中断无法快速恢复,造成投资和效率受损。中国信通院发布的《2025年AI+运维:构建智能化运维新范式》报告中提出 AIOps2.0将进入大模型运维时代,实现全域感知和自主决策能力。为此,新华三构建了以智能体为核心驱动的新一代智算运维运营体系,旨在实现对异构算力的深度洞察与全局自主优化,专为大模型训练等智算任务而设计,致力于将算力转化为稳定、高效、经济的模型生产力。

首先,智能云运维体系采用全新融合架构实现全栈资源一体化监控与数据深度融合,提供面向智算场景的全栈可观测能力,不仅打通从基础设施到AI应用的全链路数据,更深度聚焦于智算集群的微观体征。系统实时采集并监控智算资源,包括GPU、RDMA网络、存储以及训练任务的吞吐性能、训练分阶段耗时、Loss、集合通信带宽等关键指标,将这些指标与训练任务的生命周期进行关联,使得每一次算力波动、每一处通信阻塞、每一个任务异常都变得完全透明、可追溯,为精准的效能分析与故障定界提供了前所未有的清晰视野,彻底改变了智算集群作为“黑盒”的现状。

在此基础上以全景化资源图谱为认知基础,采用多智能体协同架构打造智能体中枢,叠加包括云运维智能体、运营分析智能体、数据分析智能体在内的多个智能体,具备运维、运营与数据分析能力,能够全局感知、自主决策、主动执行。展现出多维一体的高阶智能:在管理层面,当监测到任务性能不达标或预测到资源瓶颈时,调度系统会主动介入:动态调整任务占用的GPU拓扑以减少通信开销、将任务迁移至更健康的计算节点、为更高优先级的训练任务执行智能的资源抢占与排队优化等,确保关键训练任务的连续性与可靠性。在运维层面,它能主动进行跨域故障根因分析、预测系统性风险,并自动执行最优的处置与调度策略,实现从被动响应到主动免疫的转变。在运营层面,它具备精准的资源用量预测与动态优化能力,通过智能分析持续驱动资源利用率与成本效益的提升,同时提供强大的“问数”与深度分析能力,支持可视化洞察、归因分析与前瞻预测,为各环节决策提供坚实的数据支撑。

综上所述,通过对智算资源及训练任务的深度监控、智能体的专业化协同、以及资源与作业的联动调度,提升智算场景的三大核心指标:提升训练效率、优化资源利用率、保障任务可靠性,加速AI创新与落地。

图4 Agentic管控体系

4 第四大支柱:AI全生命周期安全防护

随着人工智能技术在各行业加速渗透,AI系统正面临模型越权、数据泄露、算力滥用等前所未有的新型安全威胁。企业亟需构建覆盖AI应用全生命周期的防护体系,在保障创新效率的同时实现安全可控。新华三智能云基于对智能安全的前瞻洞察,推出业界领先的AI安全解决方案,为客户的数字化转型构筑可信智能基石。

新华三智能云AI安全体系以“主动防护、智能管控”为核心设计理念,形成四层纵深防御架构。

在访问控制层面,AI安全网关通过智能体零信任认证机制,实现对应用、API、工具和数据的精细化权限管控,结合Token级限速保护,有效防止算力资源滥用。其智能代理能力支持业务无缝接入,确保安全策略不阻碍创新进程。

在安全管理层面,统一分析平台突破传统日志分析局限,通过对算力、安全和云平台日志的关联分析,深度挖掘潜在风险。自研安全智能体将威胁分析效率提升40%,实现从风险发现到处置的智能化闭环管理。

在内容防护层面,AI安全护栏采用多模态风险识别技术,精准检测提示词注入等新型攻击手段,通过智能代答机制确保交互过程的安全合规。

在网络防御层面,AI防护防火墙具备业界领先的威胁检测能力,可识别95%以上的AI定向攻击,精准管控1500余种AI应用,全面覆盖敏感数据防护、越权访问阻断等400多项高危行为管控。

新华三AI智能云方案不仅为企业提供了应对新型威胁的技术武器,更通过体系化的安全能力帮助企业实现三大价值跃升:构建符合监管要求的可信AI环境,降低合规风险;建立业务与安全协同发展的创新模式,提升运营效率;形成面向未来的智能安全能力,为数字化转型提供坚实保障,助力客户安全地释放AI潜能,赢得发展先机。

图5 AI全生命周期安全防护

5 结束语:全栈赋能,将每一份算力都转化为生产力

当算力成为新时代的“水电煤”,当生成式AI叩响通用智能的大门,一场由智能驱动的深刻变革已然席卷各个行业。然而,从“拥有算力”到“驾驭智能”,其间横亘着资源异构、开发复杂、运维艰难、安全隐忧等多重鸿沟。新华三AI智能云方案,正是为跨越这些鸿沟而生的坚实桥梁。它以“高效算力底座”为基,以“全栈AI开发工具链”为器,以“Agentic管控体系”为脑,以“AI全生命周期安全防护”为盾,构建起通智一体、云边贯通、灵活生长的智能云。这不仅是对国家“东数西算”与“人工智能+”战略的精准响应与实践,更是为企业铺设了一条从“使用AI”迈向“运营AI”的清晰路径。未来已来,新华三AI智能云方案以全栈之力,赋能百行百业在智能时代的浪潮中稳健航行,智胜未来。

关闭