中国网络视听大会丨RTE+AI 声网双引擎驱动视听全域商业增长-快科技-科技改变生活

在近日举办的第十三届中国网络视听大会上，声网AI产品线负责人姚光华带来了题为《RTE+AI 双引擎驱动视听全域商业增长》的精彩分享。本文在不改变其原意的基础上，对部分内容作了提炼，旨在给行业相关从业者带来启发。

[MD:Title]

以下为姚光华演讲实录：

去年此时声网刚刚发布对话式 AI 引擎，但还停留在产品概念与技术实现。然而经过一年的不懈努力，声网已经落地了大量客户，催生出众多音频消费的创新场景。现场播放的典型客户案例——珞博智能使用声网对话式 AI 引擎打造的 AI 陪伴玩具芙崽Fuzozo，其数字灵魂完全来自声网的产品能力，生动展示了技术商业化的成果。

[MD:Title]

过去10年，声网主要聚焦人与人之间的实时互动；自2024年起，开始深耕人机交互（人与智能体的交互），并展望未来智能体之间的交互也将发生在实时互联网之中。声网的新名片清晰有力：RTE 解决连接，AI 解决理解，两者合力解决增长。

大模型诞生后，AI“能不能说话”的问题基本被解决，但智能体“像不像人”仍未攻克。人与人交互的自然延迟必须低于200毫秒，低延时、自然打断及环境感知能力，正是大模型无法独立解决的底层技术。而这恰恰是声网深耕十年的领域。

2024年8月，声网用三页PPT阐述了实时传输协议对比、对话式智能体的优雅搭建方式、开源与商业RTC的优劣。团队经过两个月狂奔，在国庆小长假第一天，声网美国兄弟公司Agora 与 OpenAI 面向全球正式发布首个 Realtime API 。自此，全球开发者和企业都能将对话智能体、音频智能体快速集成到自身应用中。

[MD:Title]

2025年3月，声网发布第一代对话式 AI 引擎1.0，同年10月迭代至2.0，涵盖模型评测平台及 AI Studio 等一系列产品。今年3月10日，在贝尔接通历史上第一通电话150周年之际，声网在美国的兄弟公司 Agora 发布了电话客服智能体解决方案。

声网对话式 AI 引擎早期落地的成功案例包括智能眼镜、AI玩具，以及智谱清言、商汤商量、星野等客户。今年，音频消费从电视、手机、平板拓展至所有带麦克风和扬声器的设备——桌面机器人、具身智能机器人、对话式 AI 眼镜、口袋小玩意儿，都成为承载音频消费的新载体。

[MD:Title]

我给大家分享一个世界级案例：一位拥有6亿多粉丝的顶流在美国春晚（超级碗）期间做直播活动，抽跑车和现金，同时在线人数达58万。声网兄弟公司 Agora启用高清能力支撑了这场世界级直播，并实现主播与观众实时互动。

我也观察到，视听产业正在经历第三次交互变革，从产品经理视角来看，交互迭代路径已从“开发者用代码调用 API ”到“产品经理用界面交互”，再到“大众用文本交互”，如今语音已成为主流交互方式——只要会说话、听得见，就能与语音智能体交互。未来加上数字人技术，可实现面对面交互。

从历史演进看：最早是单向播放，观众只是观众；后来直播连麦兴起，观众成为参与者；未来，越来越多AI Agent将参与其中，观众将变成对话者。从专业机构到UGC、PUC，创作智能体日益增多，AI原生交互时代必将到来。

[MD:Title]

本次大会的主题是“全球化，向世界讲好中国故事”，越来越多全球视听体验的技术标准和产品标准正由中国企业书写。声网愿与在座各位共同努力，把中国的实时交互能力和AI能力带到世界每一块屏幕之上，让世界听见中国声音，看见中国创新。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到