Column Big Data    媒体观察
媒体观察
新华三AI for ALL:释放AI落地乘法效应
文/DT时代

大模型引爆的AI算力竞赛宛如吞金巨兽,需要昂贵且海量的资源。但是,如何让大模型产生价值,在过去的一年当中,投资大佬们进行了多轮论战。今年春节后,著名投资人朱啸虎再次宣称,自己虽然不信大模型,但是相信应用,相信能马上商业化的。其中的意思是:开发大模型的企业能否实现盈利尚未可知,但大模型的商业化应用的优秀案例正在不断出现。

尤其是企业级市场,对大模型的应用已经从观望变为共识:利用底座大模型部署、微调私有大模型正在成为企业提升数据价值、赋能业务的关键,从信息分析和决策、企业知识搜索和管理、办公协作和智能客服等办公场景,都是合适的切入点。

新华三集团2024年媒体与分析师沟通会以“×AI”为主题就非常贴合当下的潮流。AI落地的本质应该是赋能业务,是能力的倍增器,而不仅仅是叠加的属性。所以,要应用AI,做乘法才是目标。

如同新华三集团高级副总裁、云与计算存储产品线总裁徐润安所说,伴随功能和应用的不断拓展,AI早已不只是业务层面的“单点突破”,而是应当融入整套ICT基础架构。用多层次、多维度的创新推动ICT各要素的整体进化,提升效率、质量和体验。

从“AI in ALL”到“AI for ALL”

加法到乘法也非一日之功。

“AI in ALL”战略就是让新华三的产品、解决方案以及产品研发过程全面嵌入AI,推动网络、安全、计算、存储、云、大数据、智能终端等领域全栈产品和解决方案在AI技术的加持之下更智能。

在提升产品和解决方案的“智”力的前提下,实现更好的应用,这也就有了“AI for ALL”。通过新华三的技术、产品和解决方案,赋能百行百业的智能升级,让通用大模型或垂直领域的行业(私域)大模型深入场景、黏合应用,在更大范围、更宽领域产生更大价值。

在大模型方面,新华三的策略是1+N,开放合作,按需选择。其中的1是新华三自行开发的私域大模型百业灵犀(LinSeer),N是“百模大战”中脱颖而出的通用大模型加行业模型。百业灵犀大模型的开发主要强化三个方面:一是在知识蒸馏,推动模型基座小型化,让700亿参数的大模型被精炼到百亿参数甚至十亿参数,在保障数据高精度、高质量和高表现的前提下减少部署资源需求;二是在输出校准,精炼模型回答,针对特定场景设计专用算法,增强AI使用的精准度;三是通过模型、知识、应用及安全等多层次的融合,解决更加复杂的问题。相应的,围绕“1”,新华三也推出了多款灵犀系列一体机,包含轻量级的灵犀妙答、旗舰版的灵犀智思、豪华版的灵犀慧影等。

何为AI时代的基础架构

传统上,AI能力由三驾马车构成:算力、算法、数据。但随着AI应用的深入和广泛,AI时代的基础架构需要更多维度的支撑。在新华三的新一代基础架构体系中包括五个切入点:数据、调度、算力、存储、绿色。

数据:数据对训练和微调至关重要,提高多模态数据的质量和安全性更是构建有价值的私域模型的核心。新华三推出的绿洲大模型数据治理平台能够通过异常清洗、过滤、去重、去隐私、语料增强、多维评估等流程将原始数据转化为训练数据,并对结构化数据、文本、图片、音视频等多模态数据进行高效管理,覆盖AI数据应用的全流程、全生命周期。

调度:AI的第一性原理为Scaling Law,也因此累积了巨大的投资,对资产利用率提出了更高的要求。云化是灵活管理资源的有效手段。傲飞算力平台是新华三推出的智能调度和业务开发平台,有效管理企业的AI和科学计算资产,实现数据集、模型、算法、镜像、样例库、知识库和模板的统一管理和按需取用。傲飞平台支持大规模智算中心级运维管理,可支持万卡集群的通用算力、智能算力统一调度,可将底层算力资源和上层AI及科学计算业务串联起来,构建通用性和统一性。

算力:算力不但要强,还需要多样化与多元化。多样化是应对不同的应用场景,多元化是利用不同的算力资源。多样化方面,新华三有适用于智算中心训练、推理任务的H3C UniServer R5300/R5500 G7系列服务器,也有面向边缘场景的H3C UniServer E3300 G6边缘AI服务器。多元化算力方面,新华三服务器可兼容多种处理器平台和10余种加速卡,更进一步的,还利用自身在网络方面的技术能力,从片间互联和GPU服务器集群互联两个角度,帮助国内GPU厂商提升互联能力,满足大模型训练中GPU规模互联的需求。

存储:大模型应用对存储能力提出了极高的要求,需要大容量数据的低延迟访问,需要尽可能高效地写入checkpoint以减少算力闲置。针对AI存储需求,新华三推出的Polaris系列通过全闪介质、数据池化和AI智能管理设计,能够满足AI业务负载对存储设备的性能和功能需求,提升AI智算集群的整体运行效率。

绿色:AI算力快速推高了平台的功率密度和整体功耗,传统风冷在散热效率和能耗方面捉襟见肘。为了提升散热效率,降低智算中心PUE,业内普遍引入液冷解决方案。新华三已覆盖冷板式和浸没式两大技术路线。在冷板式液冷路线中,新华三方案已经攻克风液混合的难题,可在节点内100%覆盖0.3W以上热敏部件,并实现节点的液、网、电三大总线热插拔和免工具快接。而在浸没式液冷路线中,新华三也全面支持氟化液、油类、相变等三种不同的工质技术路线。

用AI助力AI时代基础设施

AI时代的基础设施不单是服务于AI,也受益于AI。智能运维是新华三行之有年的“AI in ALL”战略的一环。

数据中心的日常运维包括三个方面:资产管理、运维可靠性、故障处理。

以SSD为例,传统的SSD状态判别主要是依赖S.M.A.R.T.信息。但S.M.A.R.T.中指标多达300多项,无法简单判断SSD的故障风险。通过收集上万块SSD的信息,通过算法研判,可以对SSD的潜在故障和剩余寿命有更精确的判断。由此可以减少盘片的替换,也可以及时预告故障风险。

对于存储,新华三的智慧中枢管理平台是基于客户的应用场景和使用习惯,提取到存储运行的模型参数中进行训练。通过智慧管理中枢平台,在存储设备中已经集成了3000个探针,可以实时将存储运行状态反馈到管理平台进行监控,同时做模型的匹配。所有设备运行的状态,包括整个故障的信息,都会在反哺到整个模型中,反复提炼。当一些突发的业务造成时间抖动时,智慧中枢平台可以快速定位原因或故障点。

再如,停机设备重新上线前,应该判断能不能上线。传统上缺乏全面的检查手段,上线后很可能很快再次出现故障。利用智能运维做全面的检查,排除风险,就可以提升运维质量。

AGI时代的边缘侧AI

边缘侧一直是AI应用的主要场景,典型的如物体识别、行为识别等机器视觉应用。传统上的边缘侧部署的服务器主要解决数据本地化和处理低延迟的问题,以及应对可能相对恶劣的环境,高温、高湿、粉尘、电网不稳定性等等。

随着大模型的部署,AI演进为AGI(人工通用智能),对边缘侧的要求也进一步提高了,由此也形成了一个重要的增长点。

首先是私有化部署的AGI需要处理和存储更多的数据量,尤其是收集多模态数据进行推理,甚至会保留下来做反复微调。这些数据通常是私有的,而且往往出于合规的需要不能上云。

其次,更高的算力,相应地也带来更高的功耗。传统的边缘服务器功耗几百瓦就可以满足,但强化异构算力的边缘服务器可以达到3000甚至5000瓦功耗。平衡功耗、可靠性、可维护性的难度也相应提高了。

其三,是更高的网络性能要求。网络要求来自边缘侧节点之间的协同,也包括满足本地数据要求的存储节点。

第四,是多样化的需求。当前AI算力是多元化的,边缘侧也会面临同样的问题,主要算力可以来自CPU或不同厂商的GPU,或者专用的推理卡。

针对这些新的挑战,H3C UniServer E3300也做了相应的改进。最重要的是资源模块化,同一个机箱内可以放入不同的计算模块、网络模块,譬如可以是两路计算节点,也可以是交换机+计算。机箱是2U高度,可以是半宽,也可以是全宽。模块化之后,还可以实现传统上碎片化需求的集成。传统的模式下,需要部署通用服务器、GPU服务器、交换机等等,可能需要安装两三台设备,通过E3300则可以一个机箱内就全部解决。

结语:

继续深化“AI in ALL”,加速“AI for ALL”,都离不开新华三的独特竞争力:网络基因+服务器实力。新华三做网络起家,服务器市场份额也做到了第二。在智算时代,新华三的优势是“算力+联接”;但在AGI时代,Scaling Law让联接能力发挥出乘数效应,也就是“算力×联接”。在此基础上,新华三要强调的是多元开放、高效融合,提供多元异构、开放、包容的算力平台,灵活的架构以及更强的拓展能力,赋能生态链内的合作伙伴,为客户提供更大的智算资源价值。

关闭