京东 JoyAI 语音大模型 LiveTTS 支撑 618 多场景语音交互
  • 子莹
  • 2026年05月29日 15:54
  • 0

作为京东自研的语音合成能力,京东 JoyAI 语音大模型LiveTTS 覆盖“捏声音”、方言切换、情绪控制和小语种合成等方向,并已应用于 JoyInside 智能终端、JoyAI App 万能博士、京东数字人 JoyStreamer、AI 播客等场景,为 618 期间多场景语音交互提供技术支撑。

近日,京东 JoyAI 语音大模型 LiveTTS 已全面接入京东 JoyClaw。

六大核心能力覆盖语音生成关键环节

JoyAI 语音大模型 LiveTTS 围绕语音生成、表达控制和音色定制,形成六项核心能力。

在语言覆盖方面,LiveTTS 支持中英、粤语、德语、法语、西班牙语、日语、韩语、荷兰语、阿拉伯语等多语种合成,适配不同语言环境下的内容表达需求。

在方言表达方面,LiveTTS 可实现方言解耦,覆盖东北话、河南话、闽南话、天津话、四川话、陕西话、粤语、上海话等全国多地方言。

在表达控制方面,LiveTTS 具备情绪解耦与语速解耦能力,可实现不同情感控制和语速控制,使合成语音在情绪、节奏上更贴合文本内容与使用场景。

在音色定制方面,LiveTTS 可通过融合多个音色的声纹,实现新的声音捏制;同时支持基于 3—10 秒音频完成一句话音色克隆。

这些能力使 LiveTTS 不仅能够完成文字到语音的转换,也可围绕语言、方言、情绪、语速和音色等维度进行控制,适配不同业务场景下的语音交互需求。

多场景应用提升语音交互体验

目前,LiveTTS 已在京东多个业务场景中应用。

在 JoyInside 智能终端场景中,JoyInside 生态涵盖玩具、机器狗、学习机、台灯等多元终端。LiveTTS 通过方言解耦能力,可一句话实现方言与哼唱合成,提升不同地域、不同年龄用户的语音交互体验。

在 JoyAI App 万能博士场景中,JoyAI App 作为“能聊能办”的万能数字助手,兼具工具与陪伴属性,并深度融入京东供应链。用户打开 JoyAI App,即可体验万能博士对话效果。目前,每天有数万人与万能博士进行聊天对话。

在京东数字人 JoyStreamer 场景中,京东数字人 JoyStreamer 目前累计服务超 7 万商家。借助 LiveTTS,数字人主播可呈现更具情绪张力的表达效果,支持直播间商品讲解与互动等场景。

在 AI 播客场景中,LiveTTS 可将图文内容转化为拟真人声表达,用户打开 JoyAI App 即可体验相关能力。

大模型技术支撑 618 高并发场景

声音是情感、情绪表达的重要载体。近年来,大语言模型的发展正在重塑语音合成技术范式,即将语音转化为 Token 序列进行深度建模。JoyAI 语音大模型 LiveTTS 依托 LLM 底层能力,引入自然语言指令控制,可通过 Prompt 实现同一音色在多语种、多方言之间切换,并对复杂情绪进行控制。

据介绍,该能力打破了传统主流 TTS 中音色与方言绑定、情绪不饱满、语速难以调控等问题。伴随音色与语种、方言、情感等能力的解耦,语音交互正在从单向信息传递向更具情感表达的方向发展。

618 作为超大规模工业场景,对语音交互技术提出了高并发、低延迟、高稳定性等要求。除上述场景外,LiveTTS 相关能力还支持了智能客服、营销等数十个场景应用,为京东 618 期间每日千万级、全场景、高并发的实时交互提供超低延迟、高稳定性输出支撑。

文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0