OpenStarry Blog

标签:LLM 评估

「LLM 评估」分类下共 3 篇文章。

全部选型指南 + 效率实战生成模型AI 基础RLHF/对齐AI 前沿工具教程LLM 评估RAG/检索AI Agent训练优化行业分析IDE 接入教程ChatGPT 国内接入Claude 国内接入技术深度成本优化前沿趋势迁移指南平台接入模型解读接入教程IDE 配置Coding Plan场景对比 · 客观评测平台对比 · 重写版对比评测行业洞察安全指南工具对比效率实战选型指南套餐指南
LLM 评估

LLM 评估方法论:如何科学衡量大模型能力

系统介绍 LLM 评估的核心方法:自动指标、基准测试、人工评估,以及当前评估面临的主要挑战和前沿方向。

📅 2026-06-09
LLM 评估

用 LLM 评估 LLM:大模型裁判的方法与实践

LLM-as-Judge 用强大的语言模型评估其他模型的输出,是当前最流行的自动化评估方法。深入理解其工作原理、偏见问题和最佳实践。

📅 2026-06-09
LLM 评估

AI Agent 评估:超越传统 LLM 评估的维度

AI Agent 涉及多步骤推理、工具调用和环境交互,传统 LLM 评估指标无法覆盖。本文介绍 Agent 评估的独特维度、基准测试和实践方法。

📅 2026-06-09