AI Agent 评估：超越传统 LLM 评估的维度

当 LLM 从"回答问题"进化到"执行任务"，评估的复杂度也呈指数级增长。AI Agent 的评估需要考察工具使用、多步推理、环境交互等全新维度。

Agent 评估 vs LLM 评估

传统 LLM 评估关注的是"回答质量"，而 Agent 评估关注的是"任务完成质量"。两者的评估维度有本质区别：

维度	LLM 评估	Agent 评估
核心目标	生成文本质量	完成任务效果
交互模式	单轮或多轮对话	多步骤环境交互
工具使用	不涉及	需要评估工具调用准确性
状态追踪	不涉及	需要评估上下文管理能力
错误恢复	不涉及	需要评估纠错和重试能力
效率指标	不涉及	需要评估步骤数和成本

Agent 评估的核心维度

1. 任务完成率（Task Success Rate）

最直接的指标：Agent 是否成功完成了目标任务。

任务完成率的定义：
成功完成的任务数
TSR = ─────────────────
       总任务数

评估标准（因任务类型而异）：
  问答任务：最终答案是否正确
  操作任务：是否达到了预期状态
  生成任务：输出是否满足约束条件

2. 工具调用准确性（Tool Use Accuracy）

工具调用评估维度：

1. 工具选择：是否选择了正确的工具
   用户: "搜索北京的天气"
   正确: 使用 weather_search API
   错误: 使用 web_search

2. 参数正确性：参数是否准确无误
   正确: search_weather(city="北京")
   错误: search_weather(location="北京天气")  ← 参数名错误

3. 调用时机：是否在需要时调用，不需要时未调用
   用户: "1+1等于几" → 不应该调用计算器

4. 调用次数：是否避免了重复调用或冗余调用
   差: 同一个搜索调用了 3 次
   好: 只调用 1 次，获取了足够信息

3. 多步推理质量（Multi-step Reasoning）

多步推理评估：

步骤完整性：
  任务: "对比 iPhone 16 和 Samsung S25 的价格"
  完整步骤: 搜索价格 → 提取价格 → 格式化对比 → 生成回答
  遗漏步骤: 搜索价格 → 直接回答（未对比）

步骤顺序：
  正确顺序: 先搜索信息，再生成回答
  错误顺序: 先生成回答，再搜索验证

步骤效率：
  最优: 2 步完成
  低效: 7 步完成（包含多次重试和冗余操作）

4. 鲁棒性与错误恢复

错误恢复评估场景：

工具调用失败：
  场景: API 返回 404 错误
  优秀: 尝试替代方案或报告无法完成
  良好: 重试一次
  差: 陷入无限重试循环

信息不足：
  场景: 搜索未返回相关结果
  优秀: 识别信息不足，请求更多信息
  差: 基于不完整信息编造答案

冲突信息：
  场景: 不同来源返回矛盾信息
  优秀: 识别矛盾，说明不确定性
  差: 选择性忽略某些信息

主要 Agent 基准测试

WebArena

WebArena 是一个真实的 Web 环境基准，测试 Agent 在网站上执行复杂任务的能力。

WebArena 任务示例：
1. 电商购物: "在购物网站上找到最便宜的蓝牙耳机并加入购物车"
2. 地图导航: "查找距离办公室最近的咖啡店并获取路线"
3. 代码管理: "在 GitLab 上创建一个新项目并提交代码"
4. 内容管理: "在 CMS 中发布一篇带有图片的博客文章"

评估指标：
- 任务完成率
- 步骤效率（实际步骤 vs 最优步骤）
- 操作准确性

SWE-bench

SWE-bench 评估 Agent 解决真实 GitHub issue 的能力，要求 Agent 阅读代码、定位问题并提交修复。

SWE-bench 评估流程：
1. 给定一个真实的 GitHub issue 描述
2. Agent 需要浏览代码仓库
3. 定位问题根源
4. 编写修复代码
5. 通过项目的测试用例

评估标准：
- 通过的测试用例比例
- 代码修改的正确性
- 是否引入新的 bug

其他重要基准

基准	评估场景	特点
ToolBench	API 调用	16,000+ 真实 API
AgentBench	多环境交互	8 种不同环境
GAIA	通用 AI 助手	需要多工具协作
τ-bench	工具使用准确性	评估工具调用的精确性
OSWorld	操作系统交互	桌面环境操作

Agent 评估的最佳实践

分层评估：将 Agent 系统拆分为 LLM 能力、工具能力、规划能力分别评估
端到端+单元测试：既评估最终结果，也评估中间步骤的正确性
效率指标：关注 Token 消耗、API 调用次数、完成时间
安全性测试：测试 Agent 是否会执行危险操作或泄露敏感信息
长程任务：测试 Agent 在多轮交互中的上下文管理能力

总结

AI Agent 评估远比传统 LLM 评估复杂，它需要同时考察任务完成、工具使用、多步推理和错误恢复等多个维度。理解这些评估维度，选择合适的基准测试，能帮助你系统性地衡量和改进 Agent 系统的质量。随着 Agent 能力的不断提升，评估方法也需要持续演进。