腾讯副总裁蒋杰：腾讯混元率先采用MoE结构升级性能提升超50%-快科技-科技改变生活

在4月26日—28日举行的第十七届中国电子信息年会上，腾讯公司副总裁蒋杰表示，腾讯专注于自主可控的大模型技术发展路线，聚焦基础研究，正在利用自身积累和实力构建底层算力网络，开发训练框架，不断迭代技术，积极落地新应用，推动人工智能+及新质生产力发展。

[MD:Title] 腾讯公司副总裁蒋杰

腾讯混元是腾讯基于全链路自主可控技术打造的生成式大模型，自2023年9月首次亮相以来，通过持续迭代和实践，积累了从底层算力到机器学习平台再到上层应用的完整自主技术。目前，腾讯混元大模型参数量已达到万亿，tokens数量超过7万亿。国际权威调研机构沙利文发布的《2024年中国大模型能力评测》显示，腾讯混元在通用基础能力和专业应用能力已居国内第一梯队。

算法层面，腾讯混元大模型率先采用混合专家模型 (MoE) 结构，并在这个过程积累大量自研技术，其中包括创新的专家路由Routing算法、独创的MoE Scaling Law机制以及合成数据技术，实现模型总体性能相比上一代Dense模型提升50%。

训练和推理框架上，腾讯自研Angel机器学习平台面向大模型训练，在预训练、模型精调、强化学习多个阶段进行优化，相比业界开源框架，可以用更少的资源训练更大的模型，训练速度是主流框架的2.6倍；面向大模型推理，Angel机器学习平台实现成本相比业界主流框架下降70%，支持国产主流硬件的适配。

算力层面，腾讯拥有自研星脉高性能计算网络，使用领先的3层网络架构，可支持单集群12.8万卡规模，具备业界最高的3.2T通信带宽，可提升40%的GPU利用率，节省30%—60%的模型训练成本，为AI大模型带来10倍通信性能提升。此外，星脉网络中的交换机、光模块、网卡均是腾讯全链路自研。

[MD:Title]

会上，中国电子学会正式颁发2023中国电子学会科学技术奖。腾讯联合北京大学、北京科技大学共同研制的项目《面向大规模数据的Angel机器学习平台关键技术及应用》荣获科技进步一等奖。由多名院士等权威专家组成的鉴定委员会认为：Angel机器学习平台技术复杂度高、研制难度大、创新性强，应用前景广阔，整体技术达到国际先进水平。

[MD:Title]

创新技术的同时，腾讯也在持续探索大模型在各行业场景中的实际应用。目前，腾讯混元大模型已经支持腾讯会议、企业微信、腾讯文档等内部超过400个业务和场景接入，并通过腾讯云，面向企业和个人开发者全面开放。腾讯旗下协作SaaS产品已经全面接入腾讯混元大模型，腾讯乐享、腾讯电子签、腾讯问卷、腾讯云AI代码助手等协作SaaS产品也都已实现智能化升级。

据蒋杰现场介绍，目前腾讯混元大模型也在文生图、图片理解和生成、视频生成等多模态方向进行技术探索，并携手合作伙伴尝试落地应用，在传媒领域，目前，新华社、央视新闻、南方都市报等20多家媒体也深度使用腾讯混元视频生成、文生图等进行内容生产和创作提效。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到