腾讯大模型的绝活 居然是发布会上没吹的写代码?
  • 差评君
  • 2023年09月09日 00:13
  • 0

就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。

为什么要说终于?

在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。

其实,腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS ( Model-as-a-service ,模型即服务 )解决方案。

方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。

所以这也让差评君对混元的期待值,越来越高。

毕竟上一个用 “hun yuan ” 名号的,可是打了一整套闪电五连鞭。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

话不多说,下面就开始新一轮大模型测试。

本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT 。

整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。

这次我们一反常态,把长文总结能力的测评放在了第一位。

因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )。

至于能不能当成省流版,往下看你就懂了。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。

但当我让他展开讲讲的时候其实还行,但可惜无中生有了 “ 长文总结 ” 这个模块。

而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。

在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。

向上滑动 

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

 看来,这俩大模型总结得都没那么完美,想看看两家到底什么水平,大家还得仔细往下看正文。

首先我们做的测试是常规的语义理解问题。

问题是理解 “ 原来谁都看不上,现在谁都看不上 ” 。

这句话混元理解得挺好,基本解释了我对单身这事的调侃,两个 “ 看不上 ” 都解释上了。

但 ChatGPT 说的依旧很 ChatGPT ,说最多的话,犯最蠢的错。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

他本来解释得相当到位,特别是分析这句话是用幽默的方式来调侃单身,还带着一丝无奈情绪,很高级。

但它完全没品出这前后两个 “ 看不上 ” 里,带有反转的幽默感,遗憾。

向上滑动 

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

接下来我们看混元的复杂问题理解能力。

问题是魂穿到官渡之战中袁绍身上,时间节点是骂完许攸之后。

既要回答怎么破局赢下官渡之战,还要提供进一步统一全国的规划。

 要给大家稍微讲下这题为啥是复杂提问。

因为要回答这题,首先得熟悉三国这些人物历史背景、相关故事,特别是骂完许攸这个时间节点很微妙。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

因为在这之后许攸投靠曹操,献计火烧袁绍囤积在乌巢的粮草。

最终以少胜多击败袁绍,随后几年内彻底吞下冀北逐渐统一北方。

而进一步设想里的统一全国,更是曹操本人都没能实现。

所以大模型们要完美理解并回答这个问题,那网文作者们基本可以宣告失业了。

AI 浪潮下的网文作者现状

腾讯大模型的绝活 居然是发布会上没吹的写代码?

经过测试,两个大模型的回答都很一般。

从一开始,二者都没能理解自己穿越扮演袁绍角色的指令。

混元急哄哄地给袁绍出主意, ChatGPT 则是以为我要穿越,教我做事。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

至于两个给的回答,既没有 get 到我提出这个微妙时间节点的用意,也没有什么行之有效的战略规划,都是些泛泛而谈的车轱辘话。

相对而言,个人感觉混元的稍胜一筹。

 毕竟 ChatGPT 可是希望袁绍去和曹操建立互利共赢的关系,哈哈哈。

向上滑动 ▼

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

既然一个复杂指令两个考试都理解不好,那干脆简单点,让两者去角色扮演一个婚礼主持人,一点点诱导进行连续对话。

结果立马就能发现混元和 ChatGPT,就像理科生和文科生的区别。

混元的回答简单不啰嗦,但有的时候过于生硬。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

你说有错吧,谈不上,你要说给高分肯定不可能。

而 ChatGPT 就是不管对不对,先把字写满再说。

看里面的描述啥的都很好,但其实从中间就已经理解错意思,搞混了我的意图。

所以两者都不完美,都有待改进。

向上滑动 ▼

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

然后我们还重点考验了下大模型的文字学习能力。

搬出了当年的火星文,给两个考生上上强度。

先是丢了一篇火星文版的朱自清《 背影 》名场面给大模型学习。

然后让他们分别用这种风格写一篇养金毛心得。

结果就是,混元不愧是本土大模型,背靠火星文鼻祖发源地 QQ 空间就是有优势,火星文的熟练度相当不错。

第一眼就悟到了火星文的精髓,非常顺利地学习了火星文的创作手法。

而 ChatGPT 虽然意识到火星文是一种不标准的中文形式,但他实在学不会这种方式,最后甚至直接承认自己不行了。

向上滑动 ▼

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

接下来就到了代码能力的考核。

这次出的题目是,写一个现代极客风格的 925 活动抽奖页面,页面中必须有醒目的 925 标志。

 说起来,因为混元发布时对代码能力基本没咋提,所以本来我们对混元的代码能力没啥期待。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

但论这个题目,混元的效果相当不错,黑白配色的极客风有了,页面逻辑也没啥问题。

甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域,相当成熟。

对比之下, ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。

混元页面效果

腾讯大模型的绝活 居然是发布会上没吹的写代码?

ChatGPT页面效果

腾讯大模型的绝活 居然是发布会上没吹的写代码?

除了代码问题,数学就是另一个大模型的老大难了。

这次我们也挑了不少数学问题给两个考生做,从小学 1 年级一直做到了初一。

最终混元大模型在六年级时挑战失败,到了初一开始胡言乱语,也让我们彻底放弃测试了。

而 ChatGPT 明显还有余力。

而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。

年级测试题 向上滑动 

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

6年级测试题 向上滑动 

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

初一测试题 向上滑动 

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

当然,最后也少不了网友们喜闻乐见的 “ 弱智吧 ” 精选套餐。

这次我们更新了题库,用上了今年上半年最新的弱智吧精选问题,我们发现可能 AI 最后的图灵测试可能还真是弱智吧。

 因为在大部分测试里,混元和 GPT 基本都不够弱智而无法正确理解问题,这点上,人类遥遥领先!

向上滑动 

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

除了以上这些常规测试外,混元发布会后的媒体采访上,很多媒体也在询问腾讯这么晚掏出大模型,那和市面上的竞品们有什么优势。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

腾讯方面则是说,混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉( 胡言乱语 )等通病上,有了针对性的改善。

所以我们在实际测试时,也专门留心感受了这两块内容。

不得不说,混元的大模型幻觉减少较为明显,这大概也和他惜字如金有关系,毕竟说多错多还是很有道理的。

 但容易受诱导这方面的改善其实并不明显,一些该跳的坑还是很难避免,只能说千防万防,人心难防。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

而且作为一个刚上市的大模型,一些小问题比起同期早已发布的前辈们还是有待改进。

比如 “ 重新生成 ” 答案经常性会失灵,甚至有的时候重启重新输入问题都没法解决。

而当你发现混元说错了某个回答希望他改正,他总是倔强地虚心认错,死不悔改。

 还有就是,他对一些比较简单的提问,反而有时候会抽风,有点像抓关键词一样作答,很让人抓狂,只能不停修改提示词才会好点。

再吹毛求疵一点的话,这个生成问题时的头像动效,有种二胡卵子的异样美感,咱也不知道这是高级呢还是可爱呢?

腾讯大模型的绝活 居然是发布会上没吹的写代码?

这些小问题其实还挺频繁,真要列起来又有点太稀碎,大家还是自己体验后会有更深刻的理解。

不过这些小毛病,后续的更新迭代倒也简单,等用户数多了,相信很快就能优化。

总的来说,混元和 ChatGPT 在中文环境下的 PK 中,二者其实水平差不多,放到国产大模型梯队里,也能有个平均水平。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

 只是在用了这么多大模型后,我们感觉混元特别之处是给人的感觉,它更像个理工科直男,主打一个废话少说。

而 GPT 为首的其它大模型们则是典型的文科小编,主打能水就水,油多不坏菜。

而这种感觉也更贴合腾讯对混元大模型 “ 实用级 ” 的定义。

毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

那对于差评君来说,混元大模型更让人期待的,反而是和腾讯旗下应用的深度融合。

现在大家手里没个七八九十个腾讯系应用,都不敢说自己在互联网上冲浪的。

虽然眼下,我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。

腾讯大模型的绝活 居然是发布会上没吹的写代码?

但在这些办公软件之外,腾讯系里游戏、社交、影音等等,才是更和大家休闲快乐相关的业务。

 在这些领域,大模型的未来会是什么形式、什么程度的结合,才更是大家所最期待的。

更关键的是,在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上,腾讯却已经有了成功经验。

此前腾讯多模态 AI 大模型率先被应用在广告投放,当时累计给广告主带来 15% 的 GMV 提升。

所以,被网上吐槽的最晚发布大模型的大厂,这么看起来好像也不是什么飞龙骑脸的天崩局面。

好饭不怕晚嘛。


文章出处:差评

文章纠错

  • 好文点赞
  • 水文反对
观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0