AI Agent 评估:超越传统 LLM 评估的维度
当 LLM 从"回答问题"进化到"执行任务",评估的复杂度也呈指数级增长。AI Agent 的评估需要考察工具使用、多步推理、环境交互等全新维度。
Agent 评估 vs LLM 评估
传统 LLM 评估关注的是"回答质量",而 Agent 评估关注的是"任务完成质量"。两者的评估维度有本质区别:
| 维度 | LLM 评估 | Agent 评估 |
|---|---|---|
| 核心目标 | 生成文本质量 | 完成任务效果 |
| 交互模式 | 单轮或多轮对话 | 多步骤环境交互 |
| 工具使用 | 不涉及 | 需要评估工具调用准确性 |
| 状态追踪 | 不涉及 | 需要评估上下文管理能力 |
| 错误恢复 | 不涉及 | 需要评估纠错和重试能力 |
| 效率指标 | 不涉及 | 需要评估步骤数和成本 |
Agent 评估的核心维度
1. 任务完成率(Task Success Rate)
最直接的指标:Agent 是否成功完成了目标任务。
任务完成率的定义:
成功完成的任务数
TSR = ─────────────────
总任务数
评估标准(因任务类型而异):
问答任务:最终答案是否正确
操作任务:是否达到了预期状态
生成任务:输出是否满足约束条件
2. 工具调用准确性(Tool Use Accuracy)
工具调用评估维度:
1. 工具选择:是否选择了正确的工具
用户: "搜索北京的天气"
正确: 使用 weather_search API
错误: 使用 web_search
2. 参数正确性:参数是否准确无误
正确: search_weather(city="北京")
错误: search_weather(location="北京天气") ← 参数名错误
3. 调用时机:是否在需要时调用,不需要时未调用
用户: "1+1等于几" → 不应该调用计算器
4. 调用次数:是否避免了重复调用或冗余调用
差: 同一个搜索调用了 3 次
好: 只调用 1 次,获取了足够信息
3. 多步推理质量(Multi-step Reasoning)
多步推理评估:
步骤完整性:
任务: "对比 iPhone 16 和 Samsung S25 的价格"
完整步骤: 搜索价格 → 提取价格 → 格式化对比 → 生成回答
遗漏步骤: 搜索价格 → 直接回答(未对比)
步骤顺序:
正确顺序: 先搜索信息,再生成回答
错误顺序: 先生成回答,再搜索验证
步骤效率:
最优: 2 步完成
低效: 7 步完成(包含多次重试和冗余操作)
4. 鲁棒性与错误恢复
错误恢复评估场景:
工具调用失败:
场景: API 返回 404 错误
优秀: 尝试替代方案或报告无法完成
良好: 重试一次
差: 陷入无限重试循环
信息不足:
场景: 搜索未返回相关结果
优秀: 识别信息不足,请求更多信息
差: 基于不完整信息编造答案
冲突信息:
场景: 不同来源返回矛盾信息
优秀: 识别矛盾,说明不确定性
差: 选择性忽略某些信息
主要 Agent 基准测试
WebArena
WebArena 是一个真实的 Web 环境基准,测试 Agent 在网站上执行复杂任务的能力。
WebArena 任务示例:
1. 电商购物: "在购物网站上找到最便宜的蓝牙耳机并加入购物车"
2. 地图导航: "查找距离办公室最近的咖啡店并获取路线"
3. 代码管理: "在 GitLab 上创建一个新项目并提交代码"
4. 内容管理: "在 CMS 中发布一篇带有图片的博客文章"
评估指标:
- 任务完成率
- 步骤效率(实际步骤 vs 最优步骤)
- 操作准确性
SWE-bench
SWE-bench 评估 Agent 解决真实 GitHub issue 的能力,要求 Agent 阅读代码、定位问题并提交修复。
SWE-bench 评估流程:
1. 给定一个真实的 GitHub issue 描述
2. Agent 需要浏览代码仓库
3. 定位问题根源
4. 编写修复代码
5. 通过项目的测试用例
评估标准:
- 通过的测试用例比例
- 代码修改的正确性
- 是否引入新的 bug
其他重要基准
| 基准 | 评估场景 | 特点 |
|---|---|---|
| ToolBench | API 调用 | 16,000+ 真实 API |
| AgentBench | 多环境交互 | 8 种不同环境 |
| GAIA | 通用 AI 助手 | 需要多工具协作 |
| τ-bench | 工具使用准确性 | 评估工具调用的精确性 |
| OSWorld | 操作系统交互 | 桌面环境操作 |
Agent 评估的最佳实践
- 分层评估:将 Agent 系统拆分为 LLM 能力、工具能力、规划能力分别评估
- 端到端+单元测试:既评估最终结果,也评估中间步骤的正确性
- 效率指标:关注 Token 消耗、API 调用次数、完成时间
- 安全性测试:测试 Agent 是否会执行危险操作或泄露敏感信息
- 长程任务:测试 Agent 在多轮交互中的上下文管理能力
总结
AI Agent 评估远比传统 LLM 评估复杂,它需要同时考察任务完成、工具使用、多步推理和错误恢复等多个维度。理解这些评估维度,选择合适的基准测试,能帮助你系统性地衡量和改进 Agent 系统的质量。随着 Agent 能力的不断提升,评估方法也需要持续演进。