Agent as a Service 总览

本文是说明性白皮书内容。规范性定义请参考 System Model、Terminology 和 Agent。

什么是 Agent as a Service

Agent as a Service，简称 AaaS，是把 Agent 从“嵌在某个应用里的逻辑”提升为“可发布、可调度、可治理、可观测的云服务对象”。

它不是单纯的模型调用代理，也不是把 prompt 包一层 API。一个完整的 AaaS 平台通常同时提供下面几层能力：

Agent 作为一等资源：有身份、配置、版本、权限、灰度和展示卡片
Run 作为一等运行单元：每次执行有输入、状态、Attempt、输出流、终态和恢复语义
Runtime Session 作为一等连接：允许长连接、保活、断线恢复、KV、Config、Secrets 和工具桥接
Tool 作为一等能力：平台能管理工具目录、工具作用域、工具审计和工具调用结果
Checkpoint、Artifact、Trace 作为一等可治理对象：便于恢复、审计、调试、性能分析和多阶段执行

从产品层看，AaaS 的核心目标是把“Agent 能力开发”与“Agent 运行治理”解耦。团队可以继续使用最熟悉的模型、Framework 和工具，但运行、隔离、监控、策略、审计、配额和多租户治理由统一平台承接。

为什么需要这一层

当 Agent 从单轮问答走向真实业务执行时，系统会立刻遇到传统 API 服务和传统工作流平台难以完整覆盖的问题：

Agent 不是一次纯函数调用，而是可能持续数分钟到数小时的会话型执行
Agent 不只返回文本，还会调用工具、写文件、生成工件、保存检查点、继续对话
Agent 的运行环境差异极大：交互式 Sandbox、短时 FaaS、异步 Worker、边缘 Wasm 都可能同时存在
Agent 的问题排查不是只看一条请求日志，而是要看 Prompt、模型调用、工具调用、文件变更、网络访问和中间状态
Agent 的风险治理不只是鉴权，还包括沙箱隔离、Secret 注入、内容捕获策略、审计保留和策略门控

如果没有统一的平台层，团队通常会在每个 Agent 项目里重复实现这些能力，结果是：

每个 Agent 都有不同的状态机、日志格式和恢复方式
不同框架和工具无法稳定接到同一个控制面
监控与审计分散在多套私有 SDK 和脚本里
迁移运行环境时需要重写大量业务逻辑

AaaS 的价值就在于把这些重复且高风险的基础设施沉淀为平台能力。

AaaS 带来的产品价值

对平台团队

用统一的资源模型管理 Agent、Tool、Run 和执行画像
用统一的运行协议接入不同语言 runtime 和不同执行环境
用统一的事件与 Trace 平面做审计、计费、告警、SLO 和容量治理

对业务团队

保留现有 Agent 框架、工具调用方式和业务逻辑，不必强制重写成平台私有 DSL
让 Agent 的版本、灰度、回滚、重试、恢复和观测方式标准化
更容易把一个实验型 Agent 推向生产环境

对企业治理

更容易做多租户隔离、组织边界、权限控制和密钥管理
更容易实现运行审计、数据保留策略和安全基线
更容易把模型供应商切换、执行环境切换和工具集变化控制在平台层

如果你正在接现有生态

AaaS 的重点不是替换你现在已经在用的框架、工具和云服务，而是把它们收敛到统一治理平面。下面四篇专题分别回答最常见的落地问题：

云服务与 AI Framework 对接：讨论如何接入现有云服务、LangGraph、OpenHands 一类 framework 或 runtime。
AI 工具兼容：讨论 Claude Code、Codex、OpenCode 一类工具如何被托管、治理和观测。
AaaS 与云服务对比与运行画像与执行环境：讨论 Sandbox、FaaS、Worker、Wasm 应如何分工，以及它们如何和现有云能力组合。
运行保障与可观测性：讨论 Sandbox 场景下的 CI/CD、环境准备、Agent 安装、进程监控，以及 FaaS、Worker、Wasm 的等价监控模型。

整个体系长什么样

一个可落地的 AaaS 平台，通常由下面几层组成：

Control Plane
- 管理组织、Agent、Tool、Execution Profile、Webhook、配额和策略
Orchestrator
- 负责 Run 生命周期、Attempt 管理、重试、超时、取消、恢复和 Provider 选择
Runtime Session Gateway
- 连接运行中的 Agent 进程，提供输入分发、输出回传、Heartbeat、Secrets、KV 和配置能力
Provider Layer
- 抽象 Sandbox、FaaS、Worker、Wasm 或自定义环境，统一 prepare、start、keepAlive、release 语义
Event Log + Projection
- 持久化运行事实，投影出消息、Artifact、Checkpoint、Webhook 和读模型
Telemetry / Trace Plane
- 接收 Span、GenAI 详情、运行指标和日志关联信息，形成诊断与审计事实

这意味着 AaaS 平台并不要求所有 Agent 都跑在同一种基础设施上。它更像是一个“统一控制面 + 统一运行协议 + 统一观测面”的协调层。

典型执行闭环

一个典型的执行闭环如下：

用户或上游系统选择某个 Agent 并提交输入
控制面创建 Run，编排器根据 executionProfile 选择 Provider
Provider 准备运行空间，例如 Sandbox 会话、FaaS 实例或 Worker 任务槽位
Runtime attach 到平台，建立 Session，领取输入并开始执行
Runtime 按统一事件模型回传文本、工具调用、状态更新、Artifact 和 Checkpoint
平台把事件持久化并投影成 UI 可读的消息流和工件视图
Runtime 导出 Trace、Span 和 GenAI 详情，用于调试、审计和性能分析
运行结束后平台释放运行空间，或按画像保留 Session 供继续交互

典型应用场景

软件研发与代码代理

代码生成、补丁提交、测试运行、依赖升级、仓库巡检
需要 PTY、文件系统、Git、浏览器和长时会话的交互式运行环境

企业流程自动化

工单处理、审批前检查、报表生成、知识库检索、跨系统回填
需要强审计、可恢复、可回放和多系统工具编排

数据与运维操作

SQL 生成与执行、批处理分析、日志排查、云资源巡检、故障处置建议
需要工具受控、权限边界清晰、输出带审计

研究与多阶段任务

市场研究、合规比对、长链路资料整理、多轮计划执行
需要 Checkpoint、Artifact、长时间运行和人工介入能力

非目标

AaaS 不等于下面这些东西：

不是模型 API 的简单代理层
不是所有工作流系统的替代品
不是底层容器、虚机、对象存储、消息队列的替代品
不是单一 Agent Framework 的包装品牌

更准确地说，AaaS 是把这些基础设施和 Agent 运行语义组织成统一的平台产品。

与规范的关系

白皮书强调产品形态，规范强调可实现且可验证的契约。推荐配套阅读：

Agent as a Service 总览 ​

什么是 Agent as a Service ​

为什么需要这一层 ​

AaaS 带来的产品价值 ​

对平台团队 ​

对业务团队 ​

对企业治理 ​

如果你正在接现有生态 ​

整个体系长什么样 ​

典型执行闭环 ​

典型应用场景 ​

软件研发与代码代理 ​

企业流程自动化 ​

数据与运维操作 ​

研究与多阶段任务 ​

非目标 ​

与规范的关系 ​