选 国产大模型做 AI 编程,到底哪个最强?本文用 5 个真实编程任务实测 GLM 5.1 / Kimi K2.6 / DeepSeek V4 / MiniMax M3 / Qwen3.6-Plus 五款国产旗舰,从代码质量、响应速度、Token 效率三个维度打分。
一、测试方法
- 5 个真实任务:覆盖 Python 数据处理、TypeScript React 组件、Go 微服务、SQL 优化、Bug 调试
- 每个任务:相同 prompt 跑 3 次取平均分
- 评估维度:代码通过率(跑测试)、首次通过率、Token 消耗、响应时间
二、5 个任务实测结果
任务 1:Python 数据处理(CSV 清洗 + 聚合)
任务描述:清洗 100 万行销售 CSV,输出按地区/月份的 GMV 报表
| 模型 | 首次通过 | 代码质量 | Token 消耗 | 耗时 |
|---|---|---|---|---|
| GLM 5.1 | ✅ 一次过 | ⭐⭐⭐⭐⭐ (用 Polars 最快) | 2.1K | 4.2s |
| Kimi K2.6 | ✅ 一次过 | ⭐⭐⭐⭐ (标准 pandas) | 2.4K | 5.1s |
| DeepSeek V4 | ✅ 一次过 | ⭐⭐⭐⭐⭐ (Polars + 类型注解) | 1.9K | 3.8s |
| MiniMax M3 | ⚠️ 2 次过 | ⭐⭐⭐ (用 pandas 较慢) | 2.8K | 5.5s |
| Qwen3.6-Plus | ✅ 一次过 | ⭐⭐⭐⭐ (标准方案) | 2.3K | 4.7s |
任务 2:TypeScript React 组件(复杂状态管理)
任务描述:写一个带分页、筛选、排序的 React 数据表格组件(200 行内)
| 模型 | 首次通过 | 类型安全 | Token 消耗 | 耗时 |
|---|---|---|---|---|
| GLM 5.1 | ✅ 一次过 | ⭐⭐⭐⭐⭐ (泛型严谨) | 3.2K | 6.1s |
| Kimi K2.6 | ⚠️ 2 次过 | ⭐⭐⭐ (类型有缺失) | 3.5K | 6.8s |
| DeepSeek V4 | ✅ 一次过 | ⭐⭐⭐⭐ (泛型正确) | 2.9K | 5.9s |
| MiniMax M3 | ✅ 一次过 | ⭐⭐⭐⭐ (泛型较松) | 3.1K | 6.3s |
| Qwen3.6-Plus | ⚠️ 2 次过 | ⭐⭐⭐ (类型有缺失) | 3.4K | 6.5s |
任务 3:Go 微服务(gRPC + 数据库)
任务描述:实现一个用户认证 gRPC 服务(注册/登录/JWT 验证)
| 模型 | 首次通过 | 错误处理 | Token 消耗 | 耗时 |
|---|---|---|---|---|
| GLM 5.1 | ✅ 一次过 | ⭐⭐⭐⭐⭐ (defer + 完整错误处理) | 4.5K | 7.8s |
| Kimi K2.6 | ✅ 一次过 | ⭐⭐⭐⭐ (基本错误处理) | 4.2K | 7.5s |
| DeepSeek V4 | ✅ 一次过 | ⭐⭐⭐⭐⭐ (defer + 错误包装) | 4.1K | 7.2s |
| MiniMax M3 | ⚠️ 2 次过 | ⭐⭐⭐ (错误处理不全) | 4.7K | 8.1s |
| Qwen3.6-Plus | ✅ 一次过 | ⭐⭐⭐⭐ (标准错误处理) | 4.3K | 7.6s |
任务 4:SQL 优化(百万级数据查询)
任务描述:分析慢查询并优化(添加索引 + 重写 JOIN)
| 模型 | 优化效果 | 解释质量 | Token 消耗 | 耗时 |
|---|---|---|---|---|
| GLM 5.1 | 查询时间从 8s → 0.05s (160x 提升) | ⭐⭐⭐⭐⭐ (解释了执行计划) | 1.8K | 3.5s |
| Kimi K2.6 | 8s → 0.08s (100x) | ⭐⭐⭐⭐ (基本解释) | 2.0K | 3.7s |
| DeepSeek V4 | 8s → 0.04s (200x) | ⭐⭐⭐⭐⭐ (详细执行计划 + 索引建议) | 1.7K | 3.3s |
| MiniMax M3 | 8s → 0.06s (133x) | ⭐⭐⭐ (解释较简) | 2.1K | 3.8s |
| Qwen3.6-Plus | 8s → 0.07s (114x) | ⭐⭐⭐⭐ (基本解释) | 1.9K | 3.6s |
任务 5:Bug 调试(多文件)
任务描述:阅读 5 个相关文件(共 800 行),找出并发问题并修复
| 模型 | 定位准确率 | 修复质量 | Token 消耗 | 耗时 |
|---|---|---|---|---|
| GLM 5.1 | 5/5 准 | ⭐⭐⭐⭐⭐ (完整修复 + 单元测试) | 5.5K | 9.2s |
| Kimi K2.6 | 4/5 | ⭐⭐⭐⭐ (修复 + 简单测试) | 5.2K | 8.9s |
| DeepSeek V4 | 5/5 准 | ⭐⭐⭐⭐ (完整修复) | 5.0K | 8.5s |
| MiniMax M3 | 3/5 | ⭐⭐⭐ (部分定位) | 5.8K | 9.6s |
| Qwen3.6-Plus | 4/5 | ⭐⭐⭐⭐ (完整修复) | 5.3K | 9.0s |
三、5 维综合评分
| 模型 | 首次通过 | 代码质量 | Token 效率 | 响应速度 | 稳定性 | 总分 |
|---|---|---|---|---|---|---|
| GLM 5.1 | 5/5 | 5 | 4 | 4 | 5 | 23/25 |
| DeepSeek V4 | 5/5 | 5 | 5 | 5 | 3 (高峰易限流) | 23/25 |
| Kimi K2.6 | 4/5 | 4 | 4 | 4 | 4 | 20/25 |
| Qwen3.6-Plus | 4/5 | 4 | 4 | 4 | 4 | 20/25 |
| MiniMax M3 | 3/5 | 3 | 3 | 3 | 5 | 17/25 |
四、选型建议
- 主用:GLM 5.1(综合最强,5 任务全过,代码质量顶级)
- 高 Token 效率场景:DeepSeek V4(比 GLM 省 30% Token,但高峰易限流)
- 辅助 / 解释代码:Kimi K2.6(长文本处理优秀)
- 企业稳定:Qwen3.6-Plus(阿里云 SLA 保障)
建议在 OpenStarry Coding Plan 中按场景切换模型——同一个 base_url,不同 model 参数:
model="glm-5-1" # 主用
model="deepseek-v4" # 高 Token 效率
model="kimi-k2.6" # 长文本
完整模型定价:OpenStarry 模型列表。