人工智能技术迎来了新一轮大变革,ChatGPT在推出短短2个月后便成为了月活破亿的应用。近日,新华社研究院中国企业发展研究中心对主流大模型产品进行了体验评测,发布了《人工智能大模型体验报告》(以下简称《报告》)。
《报告》显示,百度文心一言总得分位居国内第一,并在基础能力、智商、情商、工作提效等维度均获国内第一。在智商测试维度,百度文心一言得分超过Chat-GPT3.5。
新华社研究院主要承担国家高端智库建设等工作,以政策研究为主攻方向,围绕国内外重大问题开展前瞻性、战略性、储备性研究。为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目,抓取了05月22日—05月26日数据,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
在综合指数评价方面,本次评测选取4大维度(基础能力、智商测试、情商测试、工作提效能力)、36个子能力,共300个问题,对目前主流大模型产品进行测试,并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等,最终得出各厂商的大模型综合指数评价。
综合评测结果显示:由OpenAI开发的Chat-GPT系列模型各项指标表现优异,Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升;由百度开发的人工智能大模型文心一言是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良,但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。
针对各维度能力测评,该报告也给出了相应的案例展示和分析。基础能力部分,百度文心一言表现最为抢眼。
智商测试部分,百度文心一言意外超过ChatGPT3.5,表现突出,位居排名第二,仅次于GPT4。
情商测试部分,百度文心一言表现最佳;在工作提效部分,百度文心一言与智谱ChatGLM最佳。
《报告》指出:人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一,“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果,如何为行业领域提供更为精准、更为高效的解决方案,成为大模型厂商未来弯道超车的机会。
附报告全文:
https://xhpfmapi.xinhuaxmt.com/vh512/share/11531402?channel=weixin