12月12日19:00,科大讯飞董事长刘庆峰作客新东方教育集团创始人俞敏洪直播间,就“让人工智能创造新的未来”这一话题分享了自己的看法。在谈到在人工智能领域占重要地位的语音识别、合成技术时,刘庆峰表示,科大讯飞的语音识别及合成技术已占有国内70%-80%的市场份额。
目前,科大讯飞语音识别和合成技术已被广泛应用到新华社、人民日报、学习强国等重磅媒体上,及冬奥会、冬残奥会、大运会、世界田径运动会等重大赛事中,以及电信、教育、医疗、司法等诸多领域。
刘庆峰表示, 2017年,在新一代人工智能规划出台之后,人工智能在非常多的领域都取得了显著进展,表现出非常独特的溢出效应。
目前,科大讯飞的语音识别已经超过了专业速记员水平,在国际权威语音合成大赛Blizzard Challenge中,科大讯飞14连冠。在全球范围内,无论是中文还是英文,科大讯飞的合成语言首次超过专业播音员。
同时在多语种领域,处于全球领先水平。机器翻译超过了99%的大学六级考生,已经通过了外文局和人社部共同设立的CATTI国家翻译师资格考试的技术认证,同时在高考中作文评分已经超过了人工水平,而且在雅思英语,在目前日本大阪世博会,在公立学校的英语测评和学习等等中,都已经超过了人工的水平。
下一步,科大讯飞将在原有的语音技术基础上,进一步提高语音识别技术的智能性。让科大讯飞的语音识别技术能够自动判断文章的男女角色及要表达的情感,在朗读中自动配上合适的背景音乐,能够根据需要,自动增加刮风声,下雨声和脚步声等。
然后在此基础上配上虚拟形象。朗读时,这些虚拟形象除了会有恰当的面部表情、手势及动作外,在穿衣和背景画面上,也会根据要朗读的内容有所变化。
实际上,科大讯飞的这一技术,目前已在其公司的产品——“讯飞智作”上有所体现。
4月21日,科大讯飞依托在语言及语音、图像、自然语言理解等底层技术的深厚积累,全新推出AIGC内容创作平台——讯飞智作,它是一个虚拟的“AI演播室”,通过简单地输入文稿,选定虚拟主播,即可一键完成音视频内容的输出。平台可为用户提供“AI配音”“虚拟人视频播报”“声音定制”“形象定制”等服务,大大提高了各种场景下音视频内容生产效率。
8月16日,科大讯飞星火认知大模型V2.0发布,代码能力和多模态能力全新升级,“讯飞智作” 也顺理成章地迎来了2.0版本,无论是视频后期处理还是创意视频生产,搭载讯飞星火核心能力的讯飞智作2.0都能轻松搞定。进一步降低了短视频制作的门槛,能够轻松满足更多元的视频制作需求,推动AIGC产业快速发展。
此外,在此次与俞敏洪的对话中,刘庆峰还透露了科大讯飞语音识别技术未来将在医疗领域实现的突破:可根据患者的脑电波说话,帮助不会说话的患者准确地表达出他们的要求,如“我要喝水”、“要翻个身”等。
对此,俞敏洪表示:“这很了不起,可以帮助很多人!”