7月6日至8日,2023世界人工智能大会(WAIC 2023)于上海举办。在大会中,腾讯多媒体实验室首次发布自研AI通用作曲框架XMusic,并获选本届世界人工智能大会“镇馆之宝”,成为大会关注的焦点。
WAIC 2023“镇馆之宝”今年进一步提升评选能级,从更专业的行业视角出发,评选出极具科技含量、商业前景、通用性与社会经济效益的展品。此次入选“镇馆之宝”的XMusic生成式通用作曲框架,基于AIGC技术,用户只需上传视频、图片、文字、标签、哼唱等任意内容,即可生成情绪、曲风、节奏可控的高质量音乐,能够大幅降低音乐创作的门槛。
2023世界人工智能大会镇馆之宝-腾讯XMusic
随时随地实现AI辅助创作,打造专属“行走的音乐库”
在日常生活中,用户对使用音乐有着多种多样的需求。比如在视频剪辑时,需要应用多样的配乐来让画面更加生动,但音乐搜索一般只能用歌曲名字、歌手名字等指向性强的信息来搜索,需要耗费大量的时间精力;亦或在商超、会场等场所布置时,传统的环境音乐选择容易受到版权限制,很难获得多样且合法的音乐素材。
面对这些难题,腾讯多媒体实验室自研AI通用作曲框架XMusic可以随时随地利用AI辅助实现音乐创作,打造个人专属的“行走的音乐库”。一张图片、一段文字、一个视频,甚至是一段哼唱,XMusic都能够对应生成出乐曲优美连贯、旋律起伏明显、节奏强弱交替的高质量音乐。比如输入“逗趣横生,让人捧腹大笑”的描述,XMusic就会生成一段节奏俏皮、旋律欢快的音乐。
对于视频创作者而言,XMusic无疑是解决配乐难题的一大利器。除此之外,针对互动娱乐、辅助创作、音乐教育、互动娱乐、音乐治疗等诸多场景,XMusic也有着很高的实用价值。
以场景音乐生成为例,XMusic的商用级音乐生成能力可以有效解决线下展厅、体验展、餐厅商超等场景中的环境音乐版权问题,为展厅提供多样化的公播音乐,并在体验展中融入多种智能音乐方案,提升展厅的科技感和体验感。
此外,XMusic也可以发挥重要的教学辅助能力,推进线上音乐教育的发展。比如在智慧音乐课堂中,教师可以用XMusic生成多样的节拍、节奏、音高练习曲目,结合实际教学场景,发挥AI生成音乐的教学辅助能力,为学生在演奏、练耳等多种场景中提供个性化的指导和训练,帮助学生更快地提升音乐技能。
全面AIGC能力矩阵支撑,实现音乐高效精准创作
作为WAIC 2023展区中的亮点之一,XMusic背后的腾讯多媒体实验室也受到了广泛关注,一位热爱音乐的科学家,带领一群同样热爱音乐的工程师们从零到一落地了XMusic项目。2019年,腾讯云副总裁、腾讯多媒体实验室负责人、腾讯杰出科学家、IEEE Fellow 刘杉博士带领实验室开展“基于多模态融合的智能内容生产”相关技术能力研发并逐步完善AIGC能力矩阵。
此次获选2023WAIC“镇馆之宝”的腾讯多媒体实验室自研AI通用作曲框架XMusic,是基于自研的多模态和序列建模技术,可以将提示词内容解析至符号音乐要素空间,并以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。
腾讯多媒体实验室负责人、腾讯杰出科学家、IEEE Fellow刘杉博士表示,人工智能技术的飞速发展对多媒体和相关领域产生深远影响。“腾讯多媒体实验室将继续代表腾讯公司推动人工智能和多媒体及相关领域的国际和国家标准制定,打造音视频、互动沉浸和智能媒体核心能力矩阵,通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球海量用户并助力各行业发展并践行科技向善。”
多媒体实验室还在展区展出前沿技术方面的三个项目:“全景'云'游东北虎豹国家公园”通过自研技术智能影像处理和自研VR360解决方案供所有人在“云端”走进这片山林秘境;“虚实融合技术”产品,可将传统虚拟制片的成本与难度大幅降低,无需传感器,只通过一台相机或手机,就可将自己植入到虚拟世界中;“腾讯水墨画”产品融合了视觉、音乐、文字等多种模态,结合山水画创作、智能作诗、音乐生成等多种技术能力,形成了多模态融合且能互动娱乐的完整技术方案。
腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、产品研发和应用落地,其行业领先的视频图片压缩和处理引擎、沉浸式VR系统和智能媒体能力矩阵,通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球海量用户并助力传媒、文化、旅游等行业的发展。同时代表腾讯参与多个国际及国家标准制定,数十人次担任联合主席、主编等核心职务,数百项技术提案被国际标准采纳,荣获工程艾美奖、技术卢米埃奖、ISO/IEC杰出贡献奖等,享有国际盛誉。
未来,腾讯多媒体实验室将以创新的视角和前瞻的思维,不断探索多媒体技术与AIGC能力的融合,拓展多领域的应用场景,为用户提供更加智能、便捷和丰富的多媒体体验。