国产大模型 Coding 能力实测：GLM 5.1 / Kimi K2.6 / DeepSeek V4 / MiniMax M3 谁更适合写代码？

选 国产大模型做 AI 编程，到底哪个最强？本文用 5 个真实编程任务实测 GLM 5.1 / Kimi K2.6 / DeepSeek V4 / MiniMax M3 / Qwen3.6-Plus 五款国产旗舰，从代码质量、响应速度、Token 效率三个维度打分。

一、测试方法

任务描述：清洗 100 万行销售 CSV，输出按地区/月份的 GMV 报表

模型	首次通过	代码质量	Token 消耗	耗时
GLM 5.1	✅ 一次过	⭐⭐⭐⭐⭐ (用 Polars 最快)	2.1K	4.2s
Kimi K2.6	✅ 一次过	⭐⭐⭐⭐ (标准 pandas)	2.4K	5.1s
DeepSeek V4	✅ 一次过	⭐⭐⭐⭐⭐ (Polars + 类型注解)	1.9K	3.8s
MiniMax M3	⚠️ 2 次过	⭐⭐⭐ (用 pandas 较慢)	2.8K	5.5s
Qwen3.6-Plus	✅ 一次过	⭐⭐⭐⭐ (标准方案)	2.3K	4.7s

任务描述：写一个带分页、筛选、排序的 React 数据表格组件（200 行内）

模型	首次通过	类型安全	Token 消耗	耗时
GLM 5.1	✅ 一次过	⭐⭐⭐⭐⭐ (泛型严谨)	3.2K	6.1s
Kimi K2.6	⚠️ 2 次过	⭐⭐⭐ (类型有缺失)	3.5K	6.8s
DeepSeek V4	✅ 一次过	⭐⭐⭐⭐ (泛型正确)	2.9K	5.9s
MiniMax M3	✅ 一次过	⭐⭐⭐⭐ (泛型较松)	3.1K	6.3s
Qwen3.6-Plus	⚠️ 2 次过	⭐⭐⭐ (类型有缺失)	3.4K	6.5s

任务描述：实现一个用户认证 gRPC 服务（注册/登录/JWT 验证）

模型	首次通过	错误处理	Token 消耗	耗时
GLM 5.1	✅ 一次过	⭐⭐⭐⭐⭐ (defer + 完整错误处理)	4.5K	7.8s
Kimi K2.6	✅ 一次过	⭐⭐⭐⭐ (基本错误处理)	4.2K	7.5s
DeepSeek V4	✅ 一次过	⭐⭐⭐⭐⭐ (defer + 错误包装)	4.1K	7.2s
MiniMax M3	⚠️ 2 次过	⭐⭐⭐ (错误处理不全)	4.7K	8.1s
Qwen3.6-Plus	✅ 一次过	⭐⭐⭐⭐ (标准错误处理)	4.3K	7.6s

任务描述：分析慢查询并优化（添加索引 + 重写 JOIN）

模型	优化效果	解释质量	Token 消耗	耗时
GLM 5.1	查询时间从 8s → 0.05s (160x 提升)	⭐⭐⭐⭐⭐ (解释了执行计划)	1.8K	3.5s
Kimi K2.6	8s → 0.08s (100x)	⭐⭐⭐⭐ (基本解释)	2.0K	3.7s
DeepSeek V4	8s → 0.04s (200x)	⭐⭐⭐⭐⭐ (详细执行计划 + 索引建议)	1.7K	3.3s
MiniMax M3	8s → 0.06s (133x)	⭐⭐⭐ (解释较简)	2.1K	3.8s
Qwen3.6-Plus	8s → 0.07s (114x)	⭐⭐⭐⭐ (基本解释)	1.9K	3.6s

任务描述：阅读 5 个相关文件（共 800 行），找出并发问题并修复

模型	定位准确率	修复质量	Token 消耗	耗时
GLM 5.1	5/5 准	⭐⭐⭐⭐⭐ (完整修复 + 单元测试)	5.5K	9.2s
Kimi K2.6	4/5	⭐⭐⭐⭐ (修复 + 简单测试)	5.2K	8.9s
DeepSeek V4	5/5 准	⭐⭐⭐⭐ (完整修复)	5.0K	8.5s
MiniMax M3	3/5	⭐⭐⭐ (部分定位)	5.8K	9.6s
Qwen3.6-Plus	4/5	⭐⭐⭐⭐ (完整修复)	5.3K	9.0s

模型	首次通过	代码质量	Token 效率	响应速度	稳定性	总分
GLM 5.1	5/5	5	4	4	5	23/25
DeepSeek V4	5/5	5	5	5	3 (高峰易限流)	23/25
Kimi K2.6	4/5	4	4	4	4	20/25
Qwen3.6-Plus	4/5	4	4	4	4	20/25
MiniMax M3	3/5	3	3	3	5	17/25

建议在 OpenStarry Coding Plan 中按场景切换模型——同一个 base_url，不同 model 参数：

model="glm-5-1"        # 主用
model="deepseek-v4"   # 高 Token 效率
model="kimi-k2.6"     # 长文本

完整模型定价：OpenStarry 模型列表。