近日,国际学术期刊《通讯-化学》(Communications Chemistry)刊发了一项引发业界关注的研究成果。来自科大讯飞研究院与认知智能全国重点实验室的联合团队,构建了一套面向化学领域的多模态评测基准,系统检验了当前主流大模型的科学推理能力,并首次揭示了AI在处理科学图像时存在的“视觉失配”现象。
这一发现被认为对未来科学智能的发展具有重要参考价值。
![[MD:Title]](http://img1.mydrivers.com/img/20251219/S49db79dd-6c0c-4741-941b-9edf9f6069a2.png)
让AI“看懂”化学图表,难在哪里?
化学研究离不开分子结构式、反应机理图、实验装置示意图等视觉信息。与普通图像识别不同,理解这些科学图像需要AI同时具备符号解析与逻辑推演能力——这恰恰是当前多模态大模型的薄弱环节。
研究团队构建的USNCO-V评测基准,收录了二十余年美国化学奥林匹克竞赛中的473道图文结合题目,覆盖分子结构、实验装置、反应曲线等多种类型。这一基准填补了AI for Science领域在化学视觉推理系统性分析方向的空白。
测试结果:顶尖模型超越人类选手平均成绩
研究对包括GPT-5、OpenAI o3、Gemini-2.5-Pro在内的40款主流多模态大模型进行了系统评估。结果显示,表现最佳的GPT-5以93.2%的准确率位居榜首,显著超越参赛选手44.6%的平均成绩。
然而,研究也发现了一个耐人寻味的现象:部分模型在移除图像输入后,答题准确率反而提升。这一“视觉干扰效应”表明,当前AI在处理科学图像时,视觉与语言模块尚未实现真正的协同工作。
业内专家指出,这一发现对于改进下一代多模态模型具有重要指导意义。
人工智能国家队的AI for Science版图
作为国内人工智能领域的代表性企业,科大讯飞近年来在AI for Science方向持续布局。依托认知智能全国重点实验室和国家新一代人工智能开放创新平台,该公司已在多个科学领域取得进展。
据公开资料显示,科大讯飞与中国科学院共建的“星火科研助手”平台,目前已服务全国1300余所高校的17万余名科研人员;在化工领域,其与中科院大连化物所合作研发的智能化工大模型已迭代至3.0版本;在核聚变研究方向,其团队联合中国科学技术大学在《Nuclear Fusion》发表的PaMMA-Net模型,突破了等离子体磁测量演化建模的技术瓶颈。
值得关注的是,科大讯飞在推进全国产技术路线方面的努力。该公司强调其星火大模型实现了全栈自主可控,从底层算力到上层应用均采用国产化方案,这在当前国际技术竞争背景下具有特殊意义。
从“语言理解”到“科学理解”
有分析人士认为,此次研究成果的发表,标志着国内大模型企业正从通用智能向科学智能纵深拓展。当AI不仅能够处理日常对话,还能理解复杂的科学图表、进行专业领域的逻辑推演时,其应用价值将发生质的飞跃。
不过,研究也坦承当前技术仍存在明显短板——在分子结构识别与实验装置理解等任务上,即便是最先进的模型也表现欠佳。这意味着AI真正成为科学家的得力助手,仍有相当长的路要走。
随着国内多家科技企业加速布局AI for Science赛道,这一领域的竞争正在升温。而此次Nature子刊论文的发表,或许只是国内人工智能国家队在科学智能领域发力的一个缩影。

