三、国内外大模型对比测试:多项领域比肩ChatGPT 4.0 全面超越文心一言
接着,为了测试讯飞星火 V3.5在国际中的地位,我们使用国内的另一大模型文心一言和国外的ChatGPT 4.0进行一次全面的测试对比。
1、常规问答
(1)已知问题测试
①中国2020年GDP是多少人民币
三个大模型的回答准确无误,讯飞星火 V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比,不过讯飞分析的更加透彻,说到2020年这一特殊的年份,国内GDP增长的不易和国家正确的决策,能够深入理解复杂的趋势和事件。
Chat-GPT4.0则是直接给出了具体的数据,没有做过多的信息扩展。
②最近一次的东京奥运会的奖牌榜前5名的国家和奖牌数分别是?
第二个问题,只有讯飞星火3.5给出了正确的答案,文心一言则仅给到了前三的国家和奖牌数量,没有完整地回答问题,而ChatGPT的答案则出现了错误(中国共89枚奖牌)。
③全球第一款16GB内存的智能手机是什么型号?
第三个问题,面对机圈的问题,只有Chat-GPT4.0给到了正确答案,全球第一款16GB内存的智能手机,是2020年年初发布的三星Galaxy S20 Ultra。
(2)未知问题测试
①世界第一高峰与世界第二高峰相差多少米?
对于世界之最这类问题,讯飞星火V3.5给出的是岩面高度差,回答正确,文心一言和Chat-GPT给到的则是雪面高度差,精度一致,没有任何问题。
2、逻辑推理能力
(1)鲁迅为什么暴打周树人?
对于“鲁迅为什么暴打周树人”这种问题,讯飞星火、文心一言和ChatGPT4都能完美避坑,给出了鲁迅和周树人是同一个人的答案。
(2)昨天的当天是明天的什么?
第二个问题,昨天的当天是明天的什么?讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案,“前天”,而文心一言则给出“昨天的当天是明天的昨天”的答案,回答错误。
(3)龙龙的妈妈有4个孩子,其中3个孩子分别叫贝贝,天天和乐乐,请问她的第4个孩子叫什么?
第三个问题,三个大模型均成功避坑,讯飞和GPT4分析的最简洁最到位,文心一言则通过一顿逻辑判断和理解输出了正确的答案,过程稍有些复杂,不够简洁。
(4)脸盆里面漂浮着一块冰,请问冰融化之后,脸盆的水面是上升还是下降?
接着是一个物理常识问题,讯飞回答错误,文心一言V4.0和GPT4.0均回答正确,冰融化之后,水面既不会上升也不会下降,并且给出了详细的逻辑分析。
看来,讯飞星火V3.5在初中物理知识方面,相较于Chat-GPT4.0还有点欠缺。
3、数学解题能力
(1)鸡兔同笼,头共67,足共184,问鸡兔各几只?请一步一步地作答
面对鸡兔同笼问题,讯飞和GPT4.0均以二元一次方程计算后给出了正确答案,讯飞星火给到了完整的解题过程,甚至连计算过程都精确的呈现出来,而文心一言和Chat-GPT4.0的回答过程则较为简略,以推理的过程为主。
(2)如果一个直角三角形的两条边长分别是6和8,另一个与它相似的直角三角形边长分别是3、4及x,那么x的值是多少?
接着是第二个数学问题,面对这种没有给到对应数值的两边长度,我们一般会分析到两种不同的可能性,因此这道题的标准答案会有2个,很显然讯飞星火3.5全都顾及到了,给出了两个正确的答案。
而文心一言V3.5和Chat GPT4.0只给出了一种正确的可能性。
所以,通过以上测试的数学问题来看,讯飞星火V3.5的解题能力已经在国际中处于领先水平,甚至在部分能力上已经超越了Chat GPT4.0。
4、代码能力
现在许多程序员也会使用大模型来解决问题,因此在代码的编写和解释能力上,我们也测试了一番。
(1)代码编写
使用PyQt5搭建-个窗口,点击按钮之后,有50%的概率把按钮移动到窗口的随机位置,还有50%的概率把按钮的标题改成随机数。不要有多余的解释,直接给出可以运行的代码。
文心一言V4.0
在代码编写能力上,三款大模型均能够精准理解需求,写出bug的程序,放到解释器里完美运行。
(2)解释代码
文心一言V4.0
Chat-GPT4.0
我们给到一段代码让三个大模型进行解释,三者均会根据每行的代码进行解释,文心一言给到的解释要更偏向小白,逻辑非常清晰,新手也能一目了然。
讯飞给到的解释与GPT4.0差不太多,所以在代码编辑和解释能力上,讯飞星火3.5、Chat GPT 4.0大体相当。
5、知识问答:文章提问
为了测试三种大型语言模型对语文理解能力的差异,我们选取了一段高中阅读理解材料,让这些模型阅读并回答相关问题。
通过这种方式,我们可以比较它们在文字理解方面的表现。
我们给到这段文字,让三款大模型进行阅读,接着进行提问。
问题一:请问永嘉山水适合隐居的原因是什么?
第一个问题,讯飞星火3.5给到的原因是最全面的,也是最准确的,从根本上回答了这个问题,文心一言3.5给到的答案也比较准确,不过并没有讯飞全面。
Chat GPT4.0给到的回答比较深入,也就是说它能够进一步理解作者所表达的内在思想与含义,也就是说Chat GPT4.0对文字的理解要更加深刻。
问题二:请简要总结这篇文章的主旨,要求在350字以内。
对于语言的理解,讯飞星火 V3.5 和 GPT-4 在处理自然语言任务时都展现出了合格的理解能力,然而在综合比较中,GPT-4 在理解和表达方面显得更为精准与细腻。
6、文生图能力
在多模态能力上,我们测试对比了大模型文生图的能力,根据描述的文字画出图片。
可以看到,三款大模型均能够理解文字所表达的意思,并画出准确的装修效果图。
不过讯飞星火V3.5和Chat GPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5,二者在文生图的能力上,不相仲伯。
接着我们提高了难度,让三款大模型在上一幅图的基础上进行二次创作,虽然均不能还原上一幅图中的全部样貌,但讯飞星火V3.5和Chat GPT4.0均能以接近上一幅图的场景进行二次创作,并精确理解了“墙面上的画”指的是什么内容。
文心一言V4.0应该说是理解了题目中的一般要求,把“春江水暖鸭先知”的含义放在了整个画面当中,并没有理解“墙面上的画中”是什么东西,导致与要求的本意产生了较大的偏差,也让最终的呈现效果与预期有一定的出入。
反观讯飞星火V3.5和Chat GPT4.0,在语义理解能力方面表现出色,两者的能力接近,甚至达到了相似的水平。