项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:
模型来源
- Claude Opus 4.7: 宣称官方 Claude Code 的中转站。
速度
排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Minimax M2.1 5 3 Minimax M2.5 6 4 Step-3.5-Flash 6 5 Mimo V2 Omni 7 6 Doubao-Seed-2.0-Lite 7 7 GPT-5.4(low) 8 8 Doubao-Seed-2.0-Pro 9 9 Doubao-Seed-2.0-Code 9 10 Qwen3-Coder-Next 9 11 Claude Sonnet 4.6(high) 9 12 Qwen3.5-Plus 9 13 GLM-5 Turbo 10 14 Minimax M2.7 10 Highspeed 版本 15 Qwen3.5-Flash 10 16 GPT-5.3-Codex(medium) 10 17 Gemini 3 Pro 11 18 Kimi K2.5 11 19 GLM 4.7 12 20 GPT-5.4(high) 14 21 Mimo V2 Pro 15 22 Claude Opus 4.5 15 23 Claude Sonnet 4.5 16 24 GPT-5.3-Codex(high) 16 触发了一次上下文压缩 25 GPT-5.3-Codex(xhigh) 16 26 GPT-5.4(medium) 17 27 GPT-5.4(xhigh) 18 28 Claude-Opus-4.7(Max) 20 29 GLM-5 20 30 DeppSeek V3.2 22 31 Gemini 3 Flash 22 32 KAT-Coder-Pro V2 24 33 GPT 5.2(xhigh) 25 34 Claude-Opus-4.6(Max) 26 35 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 36 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 37 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署令牌数
- Claude Opus 4.7: 4.89M
代码行数
- Claude Opus 4.7: +1473, -8
完成度
Claude Opus 4.7
审查结论: 已经存在必然编译失败,且核心入口链路未打通。
详细 (点击了解更多详细信息)代码质量
经典 Claude 风格,无需多言。
最终总结
排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 GPT 5.4(xhigh) 2 GPT 5.2(xhigh) 3 GPT-5.3-Codex(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 4 GPT 5.4(high) 5 GPT 5.4(medium) 6 GPT-5.3-Codex(high) 7 GPT-5.3-Codex(medium) 8 Claude Opus 4.6(Max) 9 GPT 5.2(medium) 10 GPT 5.4(low) 11 GPT 5.2 Codex(xhigh) 12 Claude Opus 4.5 13 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 14 GLM 5.1 15 GLM 5 16 Kimi K2.5 17 Claude Sonnet 4.6(high) 18 Qwen3.5-Plus 19 KAT-Coder-Pro V2 Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 Claude Opus 4.7(Max) 21 GLM 5 Turbo 22 GLM 4.7 23 Gemini 3.1 Pro(high) 24 Mimo V2 Pro 25 Mimo V2 Omni 26 Minimax M2.7 27 Minimax M2.5 28 Step-3.5-Flash 29 Qwen3-Coder-Next 30 Gemini 3 Pro 31 Gemini 3 Flash 32 Doubao-Seed-2.0-Code 33 Doubao-Seed-2.0-Pro 34 Doubao-Seed-2.0-Lite 35 Qwen3.5-Flash 36 Qwen3.5 35B A3B GGUF Q4_K_XL 37 Qwen3.5 9B GGUF Q4_K_XL 38 Grok 4.20 0309 Reasoning 39 DeepSeek V3.2 40 Minimax M2.1 41 GPT 5.1 Codex mini(medium)- 使用中文对 Opus 4.7 提问,在完成的过程中是全英文的,但是最后的总结输出是中文。
- 速度相对上一代快了 6 分钟(23%)。
- 出现两个致命的编译错误,看来注意力低不假。
- 之前模型犯的错误,这次也同样犯了。
- 太抽象了,我甚至给了 3 次机会,怕我误会了它,但是结果依然没有改变,现在 T3 排行由 Opus 4.7 重磅领衔,后续的 T3 级别选手恐怕短时间难以超越。
本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。
17 个帖子 - 12 位参与者