近日,2021云栖大会开源大数据与AI行业实践论坛上,阿里巴巴开源委员会副主席、阿里云开源大数据平台负责人王峰首次公开阿里云开源大数据技术的十年演进之路。同时,经历阿里巴巴自身业务千锤百炼的两款AI“神兵”宣布开源——大规模稀疏模型训练引擎DeepRec和多模态向量检索引擎Proxima,帮助搜索、广告等AI业务大幅提效。
开源大数据:进击的十年演进之路
王峰介绍了阿里云开源大数据平台在过去十年间的技术演进历程,并分享了数据湖、实时化、云原生、智能化等技术趋势。阿里巴巴一直坚持自研和开源双轨制平行发展模式,在自研的基础上积极拥抱开源生态。早在2009年,基于 Apache Hadoop 构建第一代大数据平台-云梯,并从 2016 年开始大力推动 Apache Flink 社区的发展,激发社区生态的繁荣和多元化。至2020年,Flink已连续三年在用户和开发者邮件列表活跃度蝉联第一。
随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,帮助万千企业聚焦自身核心业务优势,缩短大数据开发周期、简化运维难度,更轻松的投入到业务创新。
重磅开源:DeepRec和Proxima
基于业界常见的开源深度学习框架Tensorflow、PyTorch,针对稀疏模型仍具有局限性的问题,阿里巴巴高级技术专家刘童璇在会上宣布大规模稀疏模型训练引擎DeepRec即将开源。DeepRec针对稀疏模型在分布式、图优化、算子、Runtime等方面进行了深度的性能优化,同时提供了动态弹性特征、动态弹性维度、自适应弹性特征、多Hash弹性特征等在阿里集团内搜推广业务中沉淀的稀疏功能。高效助力技术升级,提升模型效果和模型迭代效率,大幅提高搜索、推荐、广告场景的训练速度,缩短模型迭代周期。
阿里巴巴达摩院资深技术专家肖允锋带来多模态向量检索引擎Proxima的正式开源。Proxima是阿里巴巴达摩院自研的向量检索内核,可实现对语音、图像、视频等非结构化数据的检索,广泛应用于阿里巴巴和蚂蚁集团内的众多业务,如淘宝搜索、优酷视频搜索、阿里妈妈广告检索等。同时,还深度集成在各类大数据和数据库产品中,为其提供向量检索的能力。开源项目地址:
坚定拥抱开源,共建社区繁荣
在坚定拥抱开源的道路上,阿里巴巴一直强调希望能为开源社区作出更多贡献,带动社区繁荣发展,并实现社区多元化,让开源技术能普惠更多行业和场景。在此期间,阿里巴巴组织了上万人群参与Flink等开源技术讨论、联合举办超过百场社区活动、引入国际盛会Flink Forward等。
目前,阿里巴巴已经成为 Apache Flink 社区全球最大的贡献者和推动者,阿里云开源大数据团队也培养出30名以上Apache 顶级项目 Committer 、 PMC Member 和多名 ASF Member,参与了十多个Apache Top Level Project的建设。阿里云也与Spark、Elasticsearch等开源社区展开了深入的合作。
12月4-5日,作为开源大数据领域的顶级盛会之一,Flink Forward Asia 2021再次重磅来袭,聚集全球40+行业一线厂商和80+干货议题,打造专属于开发者的技术盛宴。大会议程已上线,点击链接即可免费报名。