《数字化领航》AI应用专刊

前沿技术

构建可落地（场景化）MaaS平台的技术研究

文 | 新华三集团智算创新业务部杨新安

摘要

大型语言模型兴起背景下，传统定制化AI开发模式存在局限，企业部署大模型普遍面临选型困惑、项目中止率高、模型与业务需求不匹配等核心困境，模型即服务（MaaS）成为推动AI开发向标准化、规模化演进的关键基础设施。本文旨在深入剖析MaaS平台的服务流程、核心技术架构、组织协同模式，并为企业采纳和构建MaaS提供具有前瞻性的建议，为企业在AI时代构建可持续的竞争优势提供参考路线图。

关键词

模型即服务；MaaS平台；异构算力调度；模型服务网关；KV Cache；智能路由

1 MaaS引领企业AI变革

大型语言模型（LLM）的兴起为企业带来了前所未有的机遇，同时也伴随着严峻的挑战。传统的AI开发模式如同“手工作坊”，受困于场景需求碎片化、高昂的人力与计算成本、以及漫长的研发周期。这种模式下，每个模型针对单一场景开发，难以复用和积累，极大地限制了AI技术的规模化应用。在此背景下，模型即服务（Model as a Service，MaaS）应运而生，它被视为推动AI开发从定制化的“手工作坊”向标准化、规模化的“工厂模式”演进的关键基础设施。MaaS不仅仅是一种新的交付模式，它更代表了企业构建、管理和扩展核心AI能力方式的根本性转变。

企业在部署大模型时面临核心困境：62%的企业对模型选型感到困惑，高昂的部署成本导致近30%的项目被迫中止，此外还有50%的企业反映模型能力与业务需求不匹配。MaaS平台通过提供统一的开发工具链、共享的算力资源池和标准化的服务接口，系统性地解决了这些难题。它将复杂的模型训练、部署与运维流程封装为简单易用的服务，显著降低了企业应用AI的技术门槛和财务风险，从而有力地加速了全行业的智能化进程。

2 MaaS平台：从模型选型到业务集成的一站式路径

从最终用户的视角来看，一个成熟的MaaS平台将复杂的AI模型开发与部署过程，简化为一系列清晰、可管理的步骤。这一标准化的服务流程至关重要，它使得非AI专家，如应用开发者和业务分析师，也能够高效地利用平台提供的强大能力，快速将AI技术转化为实际的业务价值。以下是基于实践总结的五个核心步骤。

（1）授权与准备:用户（无论是个人开发者还是企业团队）首先需要完成平台的身份认证和授权。确保对计算资源、模型库和私有数据的访问是在安全合规的框架下进行的，为后续所有操作奠定了安全基础。

（2）模型探索与部署:用户可以在平台的“模型广场”中浏览、筛选覆盖业界主流的预置开源模型，如Llama、Qwen、DeepSeek等。平台提供了模型的详细介绍和性能指标，帮助用户做出选择。选定模型后，用户可一键将其部署为在线推理服务，并生成一个可供调用的标准化的API，整个过程无需复杂的环境配置。

（3）模型定制与优化:当预置模型无法完全满足特定业务场景的精度要求时，用户可以利用平台进行模型定制。通过上传自有业务数据，用户可以对基础模型进行微调（Fine-tuning）或创建自定义模型。平台通常提供可视化的训练界面和自动化的超参数调优功能，进一步降低了模型优化的技术门槛。

（4）服务调用与集成:模型服务部署成功后，开发者可以通过平台提供的标准API（如行业广泛兼容的OpenAI API格式）进行调用。这种标准化的接口使得模型能力能够被无缝集成到企业现有的业务系统或上层应用框架中，例如集成到RAGFlow等应用中，快速构建智能客服、内容生成等功能。

（5）监控与运维:为了保障服务的稳定运行，平台提供了全面的服务监控与可观测性。用户可以实时查看关键的服务指标，包括请求吞吐量、错误率、Token消耗量以及端到端时延（包括首个Token生成时间 - TTFT）等。这些数据不仅帮助用户评估服务性能和成本，还能在出现问题时快速定位故障，为持续优化服务提供数据支撑。

下图分别从管理员、用户视角阐述二者在MaaS平台所涉及的工作。可以看到管理涉及的工作较多，主要包括部署、维护模型服务上下架，管理模型文件，镜像文件，设置模型服务参数，如负载均衡；维护算力规格，管理普通用户、统计调用数据等。

图1 模型服务流程图

这一标准化的服务流程背后，是一套复杂而强大的技术架构在提供支撑。正是这些核心技术，保证了MaaS平台的高效、弹性和可靠。

3 MaaS平台关键技术

为了实现上一章节所述的流畅服务体验，MaaS平台必须在系统层面解决一系列独特的挑战，尤其是在异构资源的统一管理、高并发流量的智能分发以及极致的运行效率方面。本章节将深入剖析支撑一个企业级MaaS平台的五大关键技术支柱。

图2 模型服务MaaS平台功能简图

◆资源消耗、任务数量、Token吞吐三类数据汇总统计，业务运营一目了然。

◆内外部模型服务API统一管理，支持负载均衡及弹性扩缩容。

◆联动到图灵模型镜像中心，随时获取最新安装包及服务。

◆CPU可以是ARM或X86架构，支持异构多元化GPU的统一调度管理。

3.1 异构AI算力资源调度与编排

MaaS平台面临的首要挑战是高效管理与调度底层多样化的计算硬件。现代MaaS平台必须具备管理异构GPU集群的能力，支持包括NVIDIA、AMD、昇腾、海光、摩尔线程在内的多种AI加速卡。

简单的资源分配方式在异构环境中会导致严重的“拖后腿”问题，即性能较弱的GPU会成为整个分布式推理管线的瓶颈。先进的调度器，如Parallax等研究，用性能感知的非对称分配（performance-awareasymmetric allocation) 取代了一般的对称分区。它们通过剖析每个异构节点的计算、内存和网络能力，为其分配合理比例的模型层切片，从而确保管线负载均衡，避免任何单一节点成为瓶颈。在具体实现上，如开源项目AIBrix（字节跳动推出的云原生推理系统，旨在作为vLLM等引擎的控制平面）的实践所示，可以利用Kubernetes和Ray等云原生技术，对多机推理中的不同角色（如Tensor Parallelism或Pipeline Parallelism）进行高效编排，确保分布式任务的无缝协同。

3.2 模型服务网关：动态负载均衡与弹性扩缩容

服务网关是MaaS架构的“交通枢纽”，作为所有推理请求的统一入口，负责流量分发、安全认证和策略执行。与传统微服务不同，大模型推理服务的负载特性呈现出显著的非线性。实践验证显示，GPU利用率与请求流量之间并非简单正比关系。这是因为LLM推理中相当一部分GPU资源被用于存储注意力键值对的KV缓存所消耗，单纯简单的GPU计算利用率指标无法捕捉这种内存压力。模型可能计算空闲但内存饱和，导致请求排队和高延迟。因此，传统的扩缩容指标（如GPU利用率）往往响应滞后且不精确，在高并发时容易导致服务过载和长尾延迟。

为解决这一难题，现代MaaS平台必须使用KV缓存利用率和请求队列深度等前瞻性指标，实现更主动的、智能化的弹性伸缩策略。这些策略不再单纯依赖滞后的资源指标，而是直接面向服务等级目标进行决策。这种主动式策略能够在流量高峰来临前快速、精准地完成扩容，确保用户体验；在流量低谷时及时缩容，最大化资源利用率，为企业节约成本。

3.3 分布式与解耦架构：以KV缓存分离为例

先进的MaaS架构倾向于采用组件解耦的设计理念，以提升系统的灵活性和可扩展性。将推理引擎的关键组件（如KV缓存）与具体的计算实例解耦，能带来显著的战略价值。通过构建分布式的KV缓存管理系统，可以将KV缓存作为一种独立的服务组件来维护。这使得缓存在不同推理请求、甚至跨不同推理引擎之间得以复用（例如，在Prefix/Session Caching场景中），从而极大地降低了重复计算的开销，并显著提升了首个Token生成时间（TTFT）的性能。此外，这种解耦架构也支持更灵活的资源配置。例如，在HBM显存（板载高带宽内存）有限的GPU上，平台可以利用空闲的CPUDRAM作为二级缓存，实现了在存储容量与访问性能之间的动态权衡。

3.4 智能路由策略：从请求分发到执行路径优化

MaaS平台的服务网关不仅要执行简单的轮询或随机负载均衡，更需要具备感知模型推理状态的智能路由能力。

以AIBrix提出的“缓存感知路由”为例，网关可以采用如“kvcacheleastused”（最少缓存占用）或“prefix-cache aware”（前缀缓存感知）等高级策略。这些策略能够识别请求的上下文，并优先将其路由到已经缓存了相关上下文的推理实例上，从而实现最优的执行效率。更进一步，结合Parallax论文提出的概念，系统可以在每个请求到达时，从部署在不同节点上的多个模型副本中，动态地“拼接”出一条最优的端到端执行管线。例如，一个请求的前半部分模型层可能被路由到一个负载较轻的副本上执行，然后其产生的中间激活值被转发到另一个有可用容量的副本上完成剩余部分的计算。这种实时的、基于单次请求的路径优化，确保了系统级的资源利用率最大化，并能即时适应波动的负载和网络状况。

3.5 服务监管与自愈：保障生产级可用性

对于企业级应用而言，服务的稳定性和可维护性是至关重要的。一个生产级的MaaS平台必须具备强大的服务监管与自愈能力。平台必须提供对关键性能指标的实时监控，包括总调用次数、失败率、端到端时延和Token消耗等，为运维和业务决策提供数据支持。更重要的是，平台应具备自动化的运维能力，特别是“模型故障自动恢复”机制。当某个推理实例因硬件故障或软件错误而失效时，系统应能自动检测到该异常，并立即将其从服务池中隔离。同时，调度系统会自动启动一个新的健康实例来替代故障实例。整个过程对终端用户完全透明，实现了无感知的故障恢复，从而有力地保障了业务的连续性。

前面分析了MaaS平台的关键技术，那么在实际项目中调用流程是怎样的？下面以在Dify智能体工作流开发平台调用MaaS平台的模型API为例，做简要介绍，通常需要以下步骤：

图3 智能体调用MaaS模型API流程图

一是在Dify中配置模型服务的url和api-key以及指定的模型（openai-api-compatible）；二是在工作流中调用配置的模型；三是模型向MAAS网关发送请求；四是网关将请求路由到合适工作节点上；五是工作节点运行，输出内容给网关；六是网关统计响应输出并将内容返回给智能体；七是智能体输出相应内容。

4 人员角色与职责划分

技术的成功实施离不开清晰的组织结构和明确的职责分工。高效协同的团队是确保MaaS平台平稳运行和价值最大化的基石。基于MaaS平台的功能特性，一个理想的组织模型应包含如表1所示四个核心角色，他们共同构成了从平台建设到业务构建的完整价值链。

表1 理想的组织模型设计

当技术架构和人员角色都准备就绪后，企业还需要一套清晰的规划来指导MaaS的落地实践，以确保投资能够精准地转化为商业成果。

5 需求分析与实施建议

成功的MaaS部署不仅是技术选型问题，更是一套系统的规划。企业需要将前述的技术讨论与自身的商业目标紧密结合，确保MaaS平台能够切实解决业务痛点并创造可量化的价值。本章将分析MaaS的核心价值，并为企业提供可行的实施路径建议。研究报告显示，企业在AI落地过程中普遍面临几大挑战：系统性克服模型精度不足的挑战、标准化解决模型选型困难、根本性转变高昂的部署成本、一体化弥补工具链的缺乏。

MaaS平台通过其独特的技术和服务模式，为这些挑战提供了直接且有效的解决方案，为计划引入或构建MaaS平台的企业提炼出三条核心建议。

1）明确价值，量化先行:在启动MaaS项目之前，应首先构建一套量化的价值评估体系。项目的实施成果必须与可量化的业务指标直接挂钩，例如明确定义在特定周期内（如季度）需达成的具体营收增长百分比或运营效率提升的明确倍数。这能有效避免战略迷航，并为后续的迭代优化提供清晰的依据。

2）平台选型，着眼兼容与开放:无论选择商业MaaS服务还是自建平台，都应优先考虑其开放性和兼容性。选择一个能够广泛支持异构硬件（如不同品牌的GPU）的平台，并确保其提供标准化的API接口（如与OpenAI兼容），这将为企业带来长期的技术灵活性，避免被单一硬件供应商或云厂商深度锁定，从而在未来保有更大的议价能力和技术选择空间。

3）分步实施，从消费到生产: 建议采用渐进式的落地策略，以控制风险、快速验证价值。

第一阶段:首先鼓励应用开发者作为平台的“消费者”，优先利用平台上的预置模型和标准API，快速构建AI原型应用或集成到现有业务流程中。这一阶段的目标是低成本、快速地验证AI在特定场景下的业务价值。

第二阶段:在成功验证业务价值后，逐步赋能内部的机器学习团队成为平台的“生产者”。利用平台提供的工具链进行模型的深度定制、微调和优化，以解决更复杂、更具挑战性的业务问题，从而构建企业核心的AI竞争力。

6 结束语：MaaS是通往普惠AI的必由之路

模型即服务（MaaS）远不止是一种新颖的技术交付模式，它更是企业在人工智能时代构建规模化、可持续AI能力的核心支柱。它标志着AI开发范式的一次根本性转变——从过去成本高昂、周期漫长且难以复用的“手工作坊”模式，迈向了标准化、高效率、可扩展的“工厂模式”。通过将复杂的大型AI模型封装成稳定、易于调用的API服务，MaaS扮演了如同电力和云计算一样的关键基础设施角色。它将曾经遥不可及的AI能力，以一种低门槛、高弹性的方式，源源不断地输送到企业的千行百业，无论是优化客户服务、赋能产品创新，还是革新内部运营流程。对于任何寻求保持竞争力的企业而言，构建或采纳一个成熟、高效的MaaS平台已不再是一种选择，而是一项战略必需。它是通往AI驱动未来的权威性基础设施。