2022年底ChatGPT的横空出世,毫无疑问是人类AI发展史上的划时代事件。相比2012年AlexNet横扫ImageNet掀起深度学习浪潮,2016年AlphaGo击败李世石掀起全球人工智能热潮,ChatGPT似乎一夜之间跨过了遥不可及的“图灵测试”门槛,开启了AGI的新范式,也宣告AI行业正式进入2.0时代。
云知声凭借十余年在AI算法和工程能力、数据和应用场景的深厚积累,快速拥有了业内领先的通用大模型和行业大模型,又实现了大模型的规模化商业落地,成为业内为数不多的通用大模型和大规模商业化落地并举的公司。这是云知声全新的里程碑,标志着云知声正式踏上通往AGI时代的新征程。
具体而言,云知声作为算法和工程能力深厚的AI新锐企业,凭借过去十余年在深度学习、BERT预训练大模型、Atlas基础架构、海量数据及产业应用等全方位的深厚积累,于5月24日,顺利发布山海大模型(UniGPT),成为国内首批实现GPT大模型技术升级的团队。山海大模型最新版,通用大模型能力已经超越GPT3.5,接近GPT-4的90%水平,医疗行业大模型领先于GPT-4和谷歌的Med-PaLM2。这也体现了云知声的AGI愿景: 通用能力世界一流,专业能力世界第一。
山海启航,文理兼修
以ChatGPT为代表的大模型技术范式升级,不同于以往单纯的算法升级,也并非简单的“大力出奇迹”,而是对一家AI公司算法功底和工程实力的综合考验,包括前沿机器学习算法和海量优质数据的深厚积累,以及大规模机器学习的算力储备和工程优化能力。
云知声从2012年起,不断跟进CNN、LSTM、Transformer、BERT、GPT等深度学习前沿算法,持续积累海量优质的语音和文本数据,并在2016年开始构建Atlas大规模机器学习平台,能高效调度上千块GPU完成大规模机器学习任务,为生成式大模型训练奠定了坚实基础。在2022年底决心打造山海大模型(UniGPT)之后,迅速完成高性能GPU算力的及时扩充,并实现千亿参数大模型的多机多卡分割,以及数据、模型及流水线的并行计算优化,将大模型预训练效率(单卡利用率占理论峰值的比例)提升到60%,显著处于行业领先水平(行业知名公司是50%水平)。
在海量数据、前沿算法及工程能力加持下,山海大模型不仅通用能力上跻身行业前列,在多项全球通用任务上表现优异,还在医疗垂直领域的专业评测表现中实现了对GPT-4和Med-PaLM2的超越,标志着山海正式起航。
通用模型能力持续演进,跻身行业前列
2023年7月和8月,山海百亿及千亿级大模型在C-Eval全球大模型综合性考试评测中分别取得60.3分和70.0分的优异成绩,百亿级模型跻身行业前列,千亿级模型通用能力入围三甲,充分印证了山海大模型在通用基础能力上达到业界第一梯队水准。
中文大模型对齐评测集(AlignBench)是一个多维度上细致评测模型和人类意图对齐水平的评测基准,。最新版本的山海大模型在AlignBench上得分为6.55分,达到了GPT4水平的86%,处于国内领先水平。
医疗增强大模型能力不断增强,遥遥领先行业水平
2023年6月,山海大模型医疗专业能力获得新突破,在MedQA任务上超过了Google MedPalm2,达到了87.1%的优异成绩。此外,在临床执业医师资格考试中,山海大模型的分数提升到了523分(满分600分),这一成绩超越了99%的考生水平。
2023年8月,云知声基于山海大模型孵化的UNIGPT-MED 模型在CCKS 2023 PromptCBLUE医疗大模型评测(通用赛道)中夺得第一名的好成绩,大模型医疗能力再获业界认可。
智慧医疗是典型的严肃场景、知识密集和高专业度应用领域,云知声凭借智慧医疗领域多年的行业数据、知识和应用经验积累,打造了世界领先的医疗增强大模型,在性能上不但远超GPT-4通用大模型,还胜过Google数千亿参数的MedPaLM2医疗领域大模型,为智慧医疗应用方案升级奠定坚实基础。
深入场景,提升效果,拓展边界
山海大模型全面的通用能力以及在医疗领域的强大表现,为云知声打造“U+X”实战应用,把大模型技术落地到诸多复杂的应用与场景提供了有力技术支撑,并结合多年服务龙头企业客户累计的领域知识和行业落地经验,为智慧物联和智慧医疗等行业升级,提供更具竞争力的AI产品及解决方案,成为国内率先将大模型技术落地于行业应用的第一梯队企业。主要应用包括:门诊病历生成、智慧政务服务、车载/轨交人机交互、智能口语学习、蓝藻AIGC平台等。山海大模型不但让“人机交互”等实现质的飞跃,更是让“门诊病历生成”等全新应用成为现实,极大拓展AI2.0的应用边界。
2023年9月,云知声基于山海大模型打造的门诊病历生成系统落地北京友谊医院,通过一键生成门诊病历,有效提升病历撰写效率与质量,成为国内首批大模型技术在严肃医疗场景下的商业化落地案例。
2023年10月,云知声携手深圳市龙华数据有限公司,以山海大模型为底座,率先开发出深圳首个政务大模型“龙知政”,颠覆传统线上机器问答,实现了信息服务由被动式的人工查找向主动、双向、实时的智能全程引导转变,赋能提升政府治理水平。
2023年10月,云知声山海大模型“入驻”南宁火车东站,打造更具人性化的智能客服,助力实现换乘节点无缝高效换乘,为乘客带来更快捷、更便利的出行体验。
2023年10月,云知声携手吉利旗下新能源品牌睿蓝,基于山海大模型打造睿蓝AI大模型,实现深度理解用户需求,解锁全车全场景情感化智能交互体验。
2023年12月,基于山海大模型打造的英语学伴Utalk正式上线,围绕读写听说进行全方位学习训练,致力满足用户多场景英语学习需求。目前,Utalk用户量已超10万。
2024年1月,基于山海大模型打造的AIGC内容创作平台蓝藻AI开启公测,可为创作者提供AI声音克隆、AI文字配音、AI文案创作服务,助力内容生产更快、更好、更具个性化。
山海相逢 屡获行业权威认可
清风拂明月,山海有相逢。2023年,凭借山海大模型在技术创新、场景落地、产品适配等方面的出色表现,不断获得客户、资本、媒体及政府的广泛认可和赞誉,再次证明了山海大模型的领先性和竞争力。
2023年6月,基于山海大模型打造的门诊病历生成系统入选北京市首批10个人工智能行业大模型应用案例。
2023年7月,云知声凭借山海大模型入选“北京市通用人工智能产业创新伙伴计划”第二批成员“模型伙伴”;同时,基于山海大模型打造的门诊病历生成系统入选2023北京人工智能行业赋能典型案例。
2023年8月,凭借在大模型领域的持续深耕与拓展,云知声成功入选“2023年中国AIGC产业图谱”。
2023年10月,山海大模型荣获北京算法交易服务中心算法模型认证证书授牌,云知声成为北京算法交易服务中心首批认证企业。
2023年11月,基于山海大模型打造的门诊病历生成系统入选《北京市人工智能行业大模型创新应用白皮书(2023年)》典型案例。
2023年12月,人民网科技公司发起成立“大模型责任联盟”,云知声成为“大模型责任联盟”首批成员单位。
2023年12月,山海大模型正式通过《生成式人工智能服务管理暂行办法》大模型上线备案。
2024年1月,山海大模型通过与华为Atlas 800训练服务器、华为AI框架昇思MindSpore的相互兼容性测试,正式获得HUAWEI COMPATIBLE证书及认证徽标的使用权。
2023年11月,凭借山海大模型杰出的商业化应用价值,云知声入选甲子光年“2023中国AI大模型领域最具商业潜力榜”。
2023年12月,基于在大模型领域的创新实践,云知声入选投资家网·2023中国价值企业榜“2023年度人工智能领域创新企业TOP30”榜单。
继往开来,加速构建互联直觉的世界
过去十年,是云知声“奔赴山海”的十年——以十年的技术及产业化应用积累,为山海大模型打造奠定坚实基础;未来十年,是云知声以“山海启航”的十年,以山海大模型为起点,开启AGI的新征程——以通用智能,创造互联、直觉的世界。
在云知大脑(UniBrain)的核心“山海大模型”成功实现升级的同时,多模态感知、生成与知识图谱等全栈AI技术组件,也持续演进,保持行业领先优势:
语音识别(ASR)方面,语音识别(ASR)方面,云知声在2023年某国际芯片巨头的技术POC(原型验证)评测中,10项测评指标均超越参评的全球4家顶尖科技公司竞品,取得第一名的优异成绩,再次用实力证明了其在业界的技术领先性,并有望于2024年在全球大规模推广应用。
指令识别(KWS)方面,云知声KWS自由说摆脱了固定命令词的限制,让用户可以更自由地表达自己的需求和意图,目前已在TCL空调等产品中成功落地应用,为用户带来了更智能化、便利化的使用体验,基于此技术的语音芯片出货量同比增长超过100%。
声纹识别(VPR)方面,云知声声纹识别技术在VoxSRC 2023声纹领域权威国际评测中取得Track1(固定训练集说话人确认)第一名、Track2(开放训练集说话人确认)第二名的优异成绩,充分印证其算法先进性。
辅助创作(AIGC)方面,云知声TTS、2D数字人、3D渲染、文生图等多模态生成技术也在持续拓展,为技术与场景的更好融合提供了更多可能。
每次技术升级,都标志着云知声在以AGI赋能百业道路上的重大进步。步入2024年,云知声将继续秉承以人工智能赋能千行百业的初心,不断加码技术创新,持续拓展人工智能技术应用边界,与各行各业合作伙伴携手推动新质生产力发展。让我们期待并共同见证AGI技术与产业的下一个飞跃!