国模崛起 GLM-5.1编程能力实测：首次超越Sonnet 4.5 Thinking-快科技-科技改变生活

快科技3月29日消息，国产AI大模型迭代速度越来快，智谱前几天发布了GLM-5.1，距离5.0发布也就一个多月时间，而且马上就向GLM Coding Plan全部用户（Lite/Pro/Max）开放。

GLM-5.1的官方介绍并不多，提升也主要是AI编程能力上的，GLM-5.1从GLM-5.0的35.4分提升到了45.3分，距离最强的Opus 4.6也只有2.6分差距。

但是官方公布的测试往往被人质疑，有刷榜的嫌疑，最终表现还是要看用户的实际使用，好消息这方面也确实真的强，而且远超之前的国模。

知乎上的程序员大佬Toyama nao搞了个LLM Benchmark Dashboard榜单，算是民间个人版的AI编程测试，涉及桌面端、移动端及前端等多个项目的开发，具体如下：

C工程：以swift语言编写面向macOS的OpenGL渲染器，考察小众语言，图形领域知识，重交互。

D工程：基于Flutter开发一款全功能的聊天软件，同时以golang开发对应服务端。考察移动端开发，数据库，多种网络通信处理。

E工程：自选技术栈，开发纯网页端视频剪辑应用。考察前端技术栈，音视频处理，复杂状态管理等。

每个项目要跑10-12轮prompt提示词，每一轮prompt包含完整的要求和考察点，平均每个工程的prompt字数在1500到2000字左右。

测试的结果如上所示，根据他的说法，GLM-5.1 成为第一个通过他全部测试工程的国产模型，其次恭喜GLM-5.1 是第一个正式超越Sonnet 4.5 Thinking的国产模型。

也就是说，GLM-5.1目前超越Opus 4.6及Sonnet 4.6是不现实的，这两个是Claude系列的旗舰大模型，但国模超越Sonnet 4.5 Thinking的含金量在开发者眼里也是实打实的。

Toyama nao表示 GLM-5.1的大幅扩展了编程的适应范围，不再是前端only战神，也不只是oneshot 样子货，是可以在复杂工况下充当编程主力。

当然，GLM-5.1也不是没有问题，他提到的是超长上下文时容易幻觉爆炸，如果遇到2轮改不好一个问题，不要抱有侥幸，直接重开。

再补充一个实际的例子，前几天刚发布的时候也有Linux.do社区的大佬Mozi做了测试，做的是魔方模拟器，之前国内的大模型都不行（当然大部分国外模型也不行，只有个别顶流模型可以），现在GLM-5.1也做对了。

总的来看，GLM-5.1这次的发布很迅速但内容简短，但实测下来编程能力的提升确实明显，整体水平超越了Sonnet 4.5 Thinking的水平，距离顶流模型还差一点距离。

AI编程是当前AI商业化上最成熟的一条路，国产模型需要在这方面发力，GLM的提升也是肉眼可见，不过还是那句话，成绩可惜，但决定这条路走得多远还有很多模型能力之外的问题。

由于需求太大，智谱的Coding Plan最近争议不断，涨价还是小问题，毕竟涨了之后还是比Claude系列便宜太多，但算力不够导致用户体验下降，这些都是需要极大投入才能缓解，智谱显然会重视，只是这个过程对用户来说有点磨人。