商汤科技发布“日日新SenseNova 4.0”,多维度全面升级大模型体系。
“日日新SenseNova 4.0”拥有更全⾯的知识覆盖、更可靠的推理能⼒,更优越的长⽂本理解力及更稳定的数字推理能⼒和更强的代码⽣成能⼒,并⽀持跨模态交互。日日新·商量大语言模型-通用版本(SenseChat V4),支持128K语境窗口长度,综合整体评测成绩水平比肩 GPT 4,相较GPT 3.5已经实现全⾯超越。
商汤还率先推出了支持不同模态工具调用的⽇⽇新·商量大语言模型Function call & Assistants API 版本,为先进的大模型与各类应用服务工具的连接提供便利桥梁,显著降低开发者使用大模型的门槛。
商汤也将先进的大模型能力转化为落地实际场景的产品应用,基于最新发布的日日新·商量大语言模型Function call & Assistants API 完成开发并发布数据分析工具“办公小浣熊”。
目前,凭借丰富的AI技术能力,商汤“日日新Sense Nova”大模型体系以低成本、高效率打通了各类AI应用,提供包括:面向办公场景的商汤⽇⽇新·商量语⾔⼤模型-数据分析版本、面向医疗场景的日日新·商量语言大模型-医疗版本“大医”、 面向自动驾驶及工业场景的日日新·商量多模态大模型,以及面向创作创意场景的日日新·秒画文生图大模型等丰富的工具。
商汤“⽇⽇新·商量大语言模型”在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业,已与超过500家客户建立深度合作,加速行业企业的智能化转型。
接下来,商汤“日日新SenseNova”大模型体系及相关产品和工具为实现通用人工智能(AGI)提供了精准着力点,助力全场景、多产业实现“大模型+”,拓宽大模型应用边界。
“节前大上新”!超丰富大模型体系,AI能力随取随用
“日日新SenseNova 4.0”提供了多种灵活的API接口和服务,开发人员可以根据实际应用需求,轻松地调用日日新SenseNova大模型的各项AI技术能力,以更低成本、更高效率实现各类AI应用。
大模型性能提升的基础,在于语言建模能力的增强。“日日新SenseNova4.0”全新升级日日新·商量大语言模型-通用版本(SenseChat V4),目前支持4k、32k、128k tokens不同窗口,拓展了模型应用范围。SenseChat V4 显著提升了在知识理解、阅读理解、综合推理、数理、代码和长文本理解等领域的通用能力,综合整体评测成绩水平比肩GPT-4 ,其中推理和代码编程的测评表现更是超越了GPT-4。在权威测试集HumanEval Coding的测试中,一次通过率达到75.6%(GPT-4此项数据为74.4%)。
基于大模型评测平台OpenCompass全集测试,日日新·商量大语言模型SenseChat V4,综合整体评测成绩水平比肩GPT-4
商汤日日新·商量语言大模型-数据分析版本(SenseChat-DataAnalysis V4)发布,在数据分析场景下的数据测试集(1000+题目)中以85.71%的正确率超过GPT-4,支持复杂表格、多表格、多文件的理解,实现数据清洗、数据运算、比较分析、趋势分析,预测性分析、可视化等常见数据分析任务,赋能财务分析、商业分析、销售预测、市场分析、宏观分析等多个应用场景。
商汤推出的日日新·商量语言大模型-医疗版本“大医”(SenseChat-Medical V4),在本次更新中实现了更强的多轮对话与上下文理解能力、以及更丰富的工具调用能力,有效实现专业医学问答及复杂医学任务推理,并支持更多模态医学文件的智能解读和交互问答。“大医”在两项行业权威评测——2023年职业药剂师考试大模型评测、中文医疗大语言模型开放评测平台MedBench中,均实现综合评分排名第二,性能逼近GPT-4,其中职业药剂师考试大模型评测中的两个细分方向性能已超越GPT-4。
2023年职业药剂师考试大模型评测结果,“大医”综合评分排名第二,并在两个细分方向上性能超越GPT-4
覆盖13个医学场景的大医Web端展示页面
多模态是人工智能大模型重要的技术演进方向,日日新·商量多模态大模型(SenseChat-Vision V4)全新推出,其拥有300亿参数,图文理解能力处于全球领先水平,在权威评测基准测试集MME Benchmark上综合得分排名首位,综合得分达2199.5(超过GPT-4V的1926.57),已在智能驾驶、智能车舱、电力行业等多个实际场景落地应用,助力千行百业的产业升级。
多模态大模型权威综合基准测试MME Benchmark可以从定位、名人识别、景点识别、OCR、数学计算等14个维度来系统综合评测模型的能力。
日日新·商量多模态大模型可回答交通场景中图文内容理解等复杂任务
商汤自研的日日新·秒画文生图大模型(SenseMirage V4)较此前版本,参数量提升至百亿量级,通过Mixture of text experts、Spatial-aware CFG等算法优化,语义理解能力与图像质感细节表现显著增强,可达成电影级海报生成水平。同时结合Adversarial Distillation算法,秒画SenseMirage-Turbo V4版本也对外发布,相较于V4基础版本,可达到10倍推理加速效果。
秒画SenseMirage V4全新升级,电影级图片一键生成
率先支持不同模态工具调用的Function call & Assistants API 版本来了,大模型时代的专属开发助手
大模型的能力前沿且丰富,为助力更多开发人员及相关行业更便捷、高效地用好大模型,商汤推出日日新·商量大语言模型Function call & Assistants API 版本。
⽇⽇新·商量大语言模型Function call & Assistants API 版本为开发人员提供一个灵活、高度可定制的工具调用框架,提供了联网搜索,代码解释,图文问答,⽂⽣图等多种⼯具调⽤,⽀持商汤⽇⽇新⼤模型体系,赋能多⾏业场景。
与其他同类产品相比,⽇⽇新·商量大语言模型Function call & Assistants API 版本率先支持不同模态的工具调用,能够支持图文结合的多模态交互和数据分析代码执行结果的直观呈现,从而解决更加复杂的问题,让各种应⽤程序中集成AI功能变得更加简单和⾼效。
通过日日新·商量大语言模型Function call & Assistants API,轻松调用内置工具实现多模态交互(注:展示效果有加速处理)
创新场景应用加速落地,商汤“日日新”大模型体系持续赋能多产业升级
大模型的出现带来了人机交互范式的巨大转换,依托商汤“日日新Sensenova”能力的快速迭代,小浣熊家族再添新成员——数据分析工具 “办公小浣熊”,重塑大模型时代的应用产品形态。
办公小浣熊是一款无需编程或复杂操作即可使用的数据分析工具。通过自然语言输入,办公小浣熊结合商汤大模型体系的意图识别、逻辑理解、代码生成能力,自动将数据转化为有意义的分析结果和可视化图表。得益于商汤大模型体系的强大中文理解能力,该产品更适应中国的数据分析需求。
办公小浣熊演示页面:输入表格,轻松get 分析报告。
产品形态的出现是大模型技术落地应用的尝试之一,自2023年4月10日商汤“日日新SenseNova”问世以来,企业用户超过3000家,覆盖行业包括互联网、游戏、文旅、教育、医疗健康、金融和编程等。
商汤始终推动降低大模型使用门槛,拓展人工智能落地场景,让大模型真正在行业里用起来,未来将持续推进“日日新SenseNova”大模型体系建设,实现创新场景应用,不断推动大模型前置化,让更多智能走向更多场景、更多行业,携手行业生态迈向AGI时代。