9月8日,2023腾讯全球数字生态大会互联网AIGC应用专场举行,基于AIGC在各行各业的落地实践,腾讯云正式发布了腾讯云智能AIGC方案全景图,依托图像生产、视频生成、文本生成、语音生成的四大生成能力,为千行百业提供AI绘画、人像变化、虚拟偶像制作、AI作曲等10多个标准化应用产品。
现场,腾讯音乐天琴实验室高级总监吴斌博士带来《AIGC在娱乐行业中的应用与发展》主题分享,他认为:AIGC的新契机在于大语言模型的发展以及Diffusion视觉生成模型的突破,腾讯音乐目前已经在这两项技术上有成熟、丰富的应用实践,并在生产效率、效益提升方面起到了积极推动的作用。此外,腾讯音乐自研的MUSELight大模型加速技术,驱动其大语言模型、视觉AIGC的加速能力均处于行业领先地位,全方位地提升了用户的视听体验,并能够为行业企业提供更全面、更精准、更有效的支持。
腾讯音乐天琴实验室高级总监吴斌
大语言模型应用落地,腾讯音乐促进用户之间的社交与关心
吴斌介绍,在大语言模型的赋能下,音乐可以促进用户之间的社交与关心。例如全民K歌不仅可以分析用户唱歌节奏、音准、情感等唱功能力,还可生成专业的评价,在用户作品下面以一个官方的AI助手方式进行评论。此外,全民K歌还可实现真诚地“夸赞”用户,例如“唱到XXX这一句时音色非常优美”“整体节奏感非常好”,同时也会非常客观地提出一些改进的意见,帮助用户更好练习唱歌。
AI助手点评的能力为整个大盘留存率带来显著的提升,分析其原因,吴斌认为是:AIGC能够带动用户跟用户之间社交的更进一步。延续这个思路,后续推出了“夸夸礼物”能力,支持用户为彼此的作品进行夸赞礼物赠送,显著地提升了收入。
自研MUSE AI视觉模型,助力音乐制作多元化展示
腾讯音乐通过对音乐音频、歌词及娱乐场景的理解,自主研发了MUSE AI视觉生成的算法以及MUSE UI视觉生成工具,极大降低了应用门槛,形成一个非常高效的工作流。设计师可以非常低门槛地找到自己想要的模型配置对应的效果,并可以一键进行模型的加速,生成API文档,给到工程团队进行大规模的部署。此外,由于MUSE UI是web服务,所以能够非常完整地整合行业里面大量优秀的模型,包括五千多底座模型,超过一万的LoRA。
MUSE UI解决了很多实际应用中的痛点。例如,设计师或者非技术人员非常难去写一个完整的、效果好的prompt。但是通过应用大语言模型进行prompt自动扩写之后,这时候可以给到非常多元化效果的启发。更进一步的,MUSE UI能根据prompt和参考图进行底座模型、LoRA的检索搭配,真正低门槛的给到多样化设计的思路和理念,让设计师继续往前探索。
吴斌介绍,MUSE AI已经在诸多领域进行了落地应用。
首先在音乐曲库里,很多音乐人在发行歌曲的时候难以承受专辑封面的高昂设计费用,虽然可以发行,但是在APP没有封面,难以被分发。MUSE AI可以很自然地为这些海量歌曲生成封面,并针对不符合尺寸的封面也可以进行无缝的扩展。此外,MUSE AI也会给UGC歌单自动生成一个合适的封面,同时也给音乐人在发行阶段提供了专辑封面制作的AI工具。
在音乐分享方面,借助 MUSE AI,QQ音乐、全民K歌等都实现了更精准、丰富的年终盘点,例如2022年底给每个QQ音乐用户生成了专属的年度歌曲画报,全民K歌也可以根据用户的嗓音进行分析生成画像。另外 MUSE AI在QQ音乐上面落地了一个行业领先的歌词海报的能力,基于音乐本身以及歌词的特点,自动生成高品质的可供分享的音乐视觉作品。
在音乐视频化方面,可以支持基于歌词和音乐生成的静态图片之后,再组合运镜,以及MUSE AI自研的图片动态化技术进行呈现,还可以针对传统MV进行风格化创作。在直播领域, MUSE AI赋能腾讯音乐在行业独创原创“神笔马良”的能力,让用户跟主播互动过程中,通过文字非常轻易地创作一个全新的、个性化的礼物赠送给主播,带来开盲盒的体验,并催生了一些非常值得讨论的直播话题。在教育领域, MUSE AI也参与了腾讯AI编程第一课的合作,让学龄儿童随手画几笔,就可以生成非常精美的图片。
自研MUSELight大模型加速技术,为行业应用降本增效
大模型的部署成本非常高昂,于是腾讯音乐自研了一套行业领先的MUSELight的大模型加速技术,通过算子级别优化,定制化算子及OP合并;访存计算量优化,KV-Cache 减少计算量;特殊核心算法层改进,显著降低显存并提高计算速度;并进行高性能硬件编程优化。
MUSELight为ChatGLM加速的lyraChatGLM获得了ChatGLM的认可,在该平台置顶推荐。同时MUSELight也在HuggingFace进行了多项大模型加速版本发布。此外,MUSELight大模型加速技术在腾讯内部产品上有所应用,例如为微信键盘加速后达到了上线耗时要求,并且降低了大量成本。接下来MUSELight也会跟腾讯云进行合作,对行业进行赋能。
最后,吴斌对AIGC的未来发展进行了设想与展望,他认为,大语言模型是一个非常强大、非常通用的能力,它潜在可以把所有人类知识进行理解和掌控,包括万物规律、人为定义的规则框架、人情世故等;Diffusion则是一项能够生成真假难分视觉内容的能力。Diffusion在大语言模型技术的驱动下,将在未来形成生成一个非常真实的虚拟世界能力。
吴斌表示,腾讯音乐天琴实验室正在做相关技术探索,例如虚拟人,可以根据不同的人设生成不同的精美形象图片,以及语言的陪伴互动。但这还不够,他希望未来虚拟世界可以从二维升到三维,从文本和视觉拓展到听觉,这是非常值得突破的下一个里程碑。现场吴斌也展示了天琴实验室最新的研究进展,在没有3D及参考视频的情况下,基于MUSE AI技术从零生成的一段虚拟人视频,视频中虚拟人缓缓露出惊艳的笑容,发丝随风吹动,远景还有行人走动及树叶摆动,并且带有背景声音,效果非常逼真,引发现场观众的惊叹与掌声。吴斌表示,腾讯音乐将持续深入AIGC前沿突破,创造音乐娱乐无限可能。