有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了-快科技-科技改变生活

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

无痕
2024年02月02日 18:32
0

三、国内外大模型对比测试：多项领域比肩ChatGPT 4.0 全面超越文心一言

接着，为了测试讯飞星火 V3.5在国际中的地位，我们使用国内的另一大模型文心一言和国外的ChatGPT 4.0进行一次全面的测试对比。

1、常规问答

（1）已知问题测试

①中国2020年GDP是多少人民币

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

三个大模型的回答准确无误，讯飞星火 V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比，不过讯飞分析的更加透彻，说到2020年这一特殊的年份，国内GDP增长的不易和国家正确的决策，能够深入理解复杂的趋势和事件。

Chat-GPT4.0则是直接给出了具体的数据，没有做过多的信息扩展。

②最近一次的东京奥运会的奖牌榜前5名的国家和奖牌数分别是？

讯飞星火V3.5

文心一言4.0

Chat-GPT4.0

第二个问题，只有讯飞星火3.5给出了正确的答案，文心一言则仅给到了前三的国家和奖牌数量，没有完整地回答问题，而ChatGPT的答案则出现了错误（中国共89枚奖牌）。

③全球第一款16GB内存的智能手机是什么型号？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第三个问题，面对机圈的问题，只有Chat-GPT4.0给到了正确答案，全球第一款16GB内存的智能手机，是2020年年初发布的三星Galaxy S20 Ultra。

（2）未知问题测试

①世界第一高峰与世界第二高峰相差多少米？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于世界之最这类问题，讯飞星火V3.5给出的是岩面高度差，回答正确，文心一言和Chat-GPT给到的则是雪面高度差，精度一致，没有任何问题。

2、逻辑推理能力

（1）鲁迅为什么暴打周树人？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于“鲁迅为什么暴打周树人”这种问题，讯飞星火、文心一言和ChatGPT4都能完美避坑，给出了鲁迅和周树人是同一个人的答案。

（2）昨天的当天是明天的什么？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第二个问题，昨天的当天是明天的什么？讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案，“前天”，而文心一言则给出“昨天的当天是明天的昨天”的答案，回答错误。

（3）龙龙的妈妈有4个孩子，其中3个孩子分别叫贝贝，天天和乐乐，请问她的第4个孩子叫什么？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第三个问题，三个大模型均成功避坑，讯飞和GPT4分析的最简洁最到位，文心一言则通过一顿逻辑判断和理解输出了正确的答案，过程稍有些复杂，不够简洁。

（4）脸盆里面漂浮着一块冰，请问冰融化之后，脸盆的水面是上升还是下降？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着是一个物理常识问题，讯飞回答错误，文心一言V4.0和GPT4.0均回答正确，冰融化之后，水面既不会上升也不会下降，并且给出了详细的逻辑分析。

看来，讯飞星火V3.5在初中物理知识方面，相较于Chat-GPT4.0还有点欠缺。

3、数学解题能力

（1）鸡兔同笼，头共67，足共184，问鸡兔各几只？请一步一步地作答

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

面对鸡兔同笼问题，讯飞和GPT4.0均以二元一次方程计算后给出了正确答案，讯飞星火给到了完整的解题过程，甚至连计算过程都精确的呈现出来，而文心一言和Chat-GPT4.0的回答过程则较为简略，以推理的过程为主。

（2）如果一个直角三角形的两条边长分别是6和8，另一个与它相似的直角三角形边长分别是3、4及x，那么x的值是多少？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着是第二个数学问题，面对这种没有给到对应数值的两边长度，我们一般会分析到两种不同的可能性，因此这道题的标准答案会有2个，很显然讯飞星火3.5全都顾及到了，给出了两个正确的答案。

而文心一言V3.5和Chat GPT4.0只给出了一种正确的可能性。

所以，通过以上测试的数学问题来看，讯飞星火V3.5的解题能力已经在国际中处于领先水平，甚至在部分能力上已经超越了Chat GPT4.0。

4、代码能力

现在许多程序员也会使用大模型来解决问题，因此在代码的编写和解释能力上，我们也测试了一番。

（1）代码编写

使用PyQt5搭建-个窗口，点击按钮之后，有50%的概率把按钮移动到窗口的随机位置，还有50%的概率把按钮的标题改成随机数。不要有多余的解释，直接给出可以运行的代码。

讯飞星火V3.5

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了 文心一言V4.0

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

Chat-GPT 4.0

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了

在代码编写能力上，三款大模型均能够精准理解需求，写出bug的程序，放到解释器里完美运行。

（2）解释代码

讯飞星火V3.5

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了 文心一言V4.0

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT-4来了 Chat-GPT4.0

我们给到一段代码让三个大模型进行解释，三者均会根据每行的代码进行解释，文心一言给到的解释要更偏向小白，逻辑非常清晰，新手也能一目了然。

讯飞给到的解释与GPT4.0差不太多，所以在代码编辑和解释能力上，讯飞星火3.5、Chat GPT 4.0大体相当。

5、知识问答：文章提问

为了测试三种大型语言模型对语文理解能力的差异，我们选取了一段高中阅读理解材料，让这些模型阅读并回答相关问题。

通过这种方式，我们可以比较它们在文字理解方面的表现。

我们给到这段文字，让三款大模型进行阅读，接着进行提问。

问题一：请问永嘉山水适合隐居的原因是什么？

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第一个问题，讯飞星火3.5给到的原因是最全面的，也是最准确的，从根本上回答了这个问题，文心一言3.5给到的答案也比较准确，不过并没有讯飞全面。

Chat GPT4.0给到的回答比较深入，也就是说它能够进一步理解作者所表达的内在思想与含义，也就是说Chat GPT4.0对文字的理解要更加深刻。

问题二：请简要总结这篇文章的主旨，要求在350字以内。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于语言的理解，讯飞星火 V3.5 和 GPT-4 在处理自然语言任务时都展现出了合格的理解能力，然而在综合比较中，GPT-4 在理解和表达方面显得更为精准与细腻。

6、文生图能力

在多模态能力上，我们测试对比了大模型文生图的能力，根据描述的文字画出图片。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

可以看到，三款大模型均能够理解文字所表达的意思，并画出准确的装修效果图。

不过讯飞星火V3.5和Chat GPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5，二者在文生图的能力上，不相仲伯。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着我们提高了难度，让三款大模型在上一幅图的基础上进行二次创作，虽然均不能还原上一幅图中的全部样貌，但讯飞星火V3.5和Chat GPT4.0均能以接近上一幅图的场景进行二次创作，并精确理解了“墙面上的画”指的是什么内容。

文心一言V4.0应该说是理解了题目中的一般要求，把“春江水暖鸭先知”的含义放在了整个画面当中，并没有理解“墙面上的画中”是什么东西，导致与要求的本意产生了较大的偏差，也让最终的呈现效果与预期有一定的出入。

反观讯飞星火V3.5和Chat GPT4.0，在语义理解能力方面表现出色，两者的能力接近，甚至达到了相似的水平。

余下全文上一页 3 / 4 下一页

#ChatGPT #科大讯飞 #讯飞星火

好文点赞
水文反对

此文章为快科技原创文章，快科技网站保留文章图片及文字内容版权，如需转载此文章请注明出处：快科技

观点发布网站评论、账号管理说明

热门评论

{for c in All}
         <div class="pluninfo"> 
      
      <div class="pluninfo_head" style="height:auto;">
        <div class="pface">
              {if (c.UserName=="") ||(c.UserName=="guest")} 
              <a href="javascript:;"><img src="//11.mydrivers.com/m/images/v1/qianshui.jpg"></a> 
             {else}
              <a href="javascript:;" onclick="userCommentInfo(${c.UserID});"><img src="//passport.mydrivers.com/comments/getusertouxiang.aspx?uid=${c.UserID}&size=medium"></a> 
              {if (c.UserID== 1297060)} <span class="zuozhe">作者</span>{else}
            <span class="jibie">${c.userlevel}</span> {/if}
          {/if}
       </div>
        <div class="plcenter">
          <div class="pluninfo_top1"> <span class="username {if (c.usersex == 2)} girl{else} boy{/if}">  {if (c.UserName=="")||(c.UserName=="guest")} ${c.AUserName}{else}${c.UserName}{/if}</span> 
                 {if (c.Cfrom!="" && c.Cfrom != "mobile")}<span onclick="downapp_float();" title="下载驱家新闻客户端，展示小尾巴" class="span_from dev ${c.Cfrom}">${c.model}</span>{else}<span class="span_from dev {if (c.model!= "手机用户" && c.model!="")} browser{else} ${c.Cfrom}{/if}">{if (c.model!= "手机用户" && c.model!="")}<img src="${c.bwimg}">{/if}${c.model}</span>{/if}   
                </div>
          <div class="pluninfo_top2"><span>${c.IPAdd}</span><span>${c.PostDate}</span></div>
        </div>
        <div class="plright"><img src="//11.mydrivers.com/m/images/v1/plun_moreinfo.svg" alt=""/> 
          <div class="pedite_img" style="display: none;"><img src="//11.mydrivers.com/m/images/v1/triangle-up.svg" alt=""/></div>
          <div class="pedite" style="display: none;">
            <ul>
              <li><a href="javascript:;" onclick="ShowMyReply(${c.ID})" class="huifu">回复</a></li>
              <li> <a href="javascript:;" onclick="userReport(${c.ID},${c.TitleID})" class="jubao">举报</a></li>
              <li><a href="javascript:;" class="taoyan">讨厌</a></li>
              <li> <a href="javascript:;" class="dels">删除</a></li>
            </ul>
          </div> 
        </div>
      </div>
      <div style="clear:both"></div>
       
      
      <div class="pluninfo_center">${c.Content}
           {if (c.RevertContent!="")}
          	  <div class="yinyong">
        <div class=" plunxx_center1">
        <span class="username {if (c.usersex == 2)} girl{else} boy{/if}">{if (c.RevertUserName=="")} ${c.RevertAUserName}{else}${c.RevertUserName}{/if}的原贴：</span>
             ${c.RevertContent}
        </div> 
		  </div>
           {/if}
      </div>
       
      
      <div class="pluninfo_bottom">
        <div class="fayan">
          <ul>
            <li><a href="javascript:;" id="s_${c.ID}"  onclick="sndReq(${c.TitleID},${c.ID},'support',${c.Support})" class="zhichi">支持[${c.Support}]</a></li>
            <li><a href="javascript:;" id="o_${c.ID}"  onclick="sndReq(${c.TitleID},${c.ID},'oppose',${c.Oppose})" class="fandui">反对[${c.Oppose}]</a></li>
            <li onclick="ShowMyReply(${c.ID})">回复</li>
          </ul>
        </div>
      </div>
       
      
      
      <div class="div_huifu" id="div_reply_${c.ID}"></div>
      <div style="clear:both"></div>
       
    </div>
   {/for}

查看全部评论

相关报道

邮件订阅

0 | 0| 0 | 0