快科技3月29日消息,国产AI大模型迭代速度越来快,智谱前几天发布了GLM-5.1,距离5.0发布也就一个多月时间,而且马上就向GLM Coding Plan全部用户(Lite/Pro/Max)开放。
GLM-5.1的官方介绍并不多,提升也主要是AI编程能力上的,GLM-5.1从GLM-5.0的35.4分提升到了45.3分,距离最强的Opus 4.6也只有2.6分差距。
但是官方公布的测试往往被人质疑,有刷榜的嫌疑,最终表现还是要看用户的实际使用,好消息这方面也确实真的强,而且远超之前的国模。
知乎上的程序员大佬Toyama nao搞了个LLM Benchmark Dashboard榜单,算是民间个人版的AI编程测试,涉及桌面端、移动端及前端等多个项目的开发,具体如下:
C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。
D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。
每个项目要跑10-12轮prompt提示词,每一轮prompt包含完整的要求和考察点,平均每个工程的prompt字数在1500到2000字左右。
测试的结果如上所示,根据他的说法,GLM-5.1 成为第一个通过他全部测试工程的国产模型,其次恭喜GLM-5.1 是第一个正式超越Sonnet 4.5 Thinking的国产模型。
也就是说,GLM-5.1目前超越Opus 4.6及Sonnet 4.6是不现实的,这两个是Claude系列的旗舰大模型,但国模超越Sonnet 4.5 Thinking的含金量在开发者眼里也是实打实的。
Toyama nao表示 GLM-5.1的大幅扩展了编程的适应范围,不再是前端only战神,也不只是oneshot 样子货,是可以在复杂工况下充当编程主力。
当然,GLM-5.1也不是没有问题,他提到的是超长上下文时容易幻觉爆炸,如果遇到2轮改不好一个问题,不要抱有侥幸,直接重开。
再补充一个实际的例子,前几天刚发布的时候也有Linux.do社区的大佬Mozi做了测试,做的是魔方模拟器,之前国内的大模型都不行(当然大部分国外模型也不行,只有个别顶流模型可以),现在GLM-5.1也做对了。
总的来看,GLM-5.1这次的发布很迅速但内容简短,但实测下来编程能力的提升确实明显,整体水平超越了Sonnet 4.5 Thinking的水平,距离顶流模型还差一点距离。
AI编程是当前AI商业化上最成熟的一条路,国产模型需要在这方面发力,GLM的提升也是肉眼可见,不过还是那句话,成绩可惜,但决定这条路走得多远还有很多模型能力之外的问题。
由于需求太大,智谱的Coding Plan最近争议不断,涨价还是小问题,毕竟涨了之后还是比Claude系列便宜太多,但算力不够导致用户体验下降,这些都是需要极大投入才能缓解,智谱显然会重视,只是这个过程对用户来说有点磨人。




