京东 JoyAI 语音大模型 LiveTTS 支撑 618 多场景语音交互-快科技-科技改变生活

作为京东自研的语音合成能力，京东 JoyAI 语音大模型LiveTTS 覆盖“捏声音”、方言切换、情绪控制和小语种合成等方向，并已应用于 JoyInside 智能终端、JoyAI App 万能博士、京东数字人 JoyStreamer、AI 播客等场景，为 618 期间多场景语音交互提供技术支撑。

近日，京东 JoyAI 语音大模型 LiveTTS 已全面接入京东 JoyClaw。

六大核心能力覆盖语音生成关键环节

JoyAI 语音大模型 LiveTTS 围绕语音生成、表达控制和音色定制，形成六项核心能力。

在语言覆盖方面，LiveTTS 支持中英、粤语、德语、法语、西班牙语、日语、韩语、荷兰语、阿拉伯语等多语种合成，适配不同语言环境下的内容表达需求。

在方言表达方面，LiveTTS 可实现方言解耦，覆盖东北话、河南话、闽南话、天津话、四川话、陕西话、粤语、上海话等全国多地方言。

在表达控制方面，LiveTTS 具备情绪解耦与语速解耦能力，可实现不同情感控制和语速控制，使合成语音在情绪、节奏上更贴合文本内容与使用场景。

在音色定制方面，LiveTTS 可通过融合多个音色的声纹，实现新的声音捏制；同时支持基于 3—10 秒音频完成一句话音色克隆。

这些能力使 LiveTTS 不仅能够完成文字到语音的转换，也可围绕语言、方言、情绪、语速和音色等维度进行控制，适配不同业务场景下的语音交互需求。

多场景应用提升语音交互体验

目前，LiveTTS 已在京东多个业务场景中应用。

在 JoyInside 智能终端场景中，JoyInside 生态涵盖玩具、机器狗、学习机、台灯等多元终端。LiveTTS 通过方言解耦能力，可一句话实现方言与哼唱合成，提升不同地域、不同年龄用户的语音交互体验。

在 JoyAI App 万能博士场景中，JoyAI App 作为“能聊能办”的万能数字助手，兼具工具与陪伴属性，并深度融入京东供应链。用户打开 JoyAI App，即可体验万能博士对话效果。目前，每天有数万人与万能博士进行聊天对话。

在京东数字人 JoyStreamer 场景中，京东数字人 JoyStreamer 目前累计服务超 7 万商家。借助 LiveTTS，数字人主播可呈现更具情绪张力的表达效果，支持直播间商品讲解与互动等场景。

在 AI 播客场景中，LiveTTS 可将图文内容转化为拟真人声表达，用户打开 JoyAI App 即可体验相关能力。

大模型技术支撑 618 高并发场景

声音是情感、情绪表达的重要载体。近年来，大语言模型的发展正在重塑语音合成技术范式，即将语音转化为 Token 序列进行深度建模。JoyAI 语音大模型 LiveTTS 依托 LLM 底层能力，引入自然语言指令控制，可通过 Prompt 实现同一音色在多语种、多方言之间切换，并对复杂情绪进行控制。

据介绍，该能力打破了传统主流 TTS 中音色与方言绑定、情绪不饱满、语速难以调控等问题。伴随音色与语种、方言、情感等能力的解耦，语音交互正在从单向信息传递向更具情感表达的方向发展。

618 作为超大规模工业场景，对语音交互技术提出了高并发、低延迟、高稳定性等要求。除上述场景外，LiveTTS 相关能力还支持了智能客服、营销等数十个场景应用，为京东 618 期间每日千万级、全场景、高并发的实时交互提供超低延迟、高稳定性输出支撑。