“Siri是催化剂,但是能否修成正果尚需时日。” 小i机器人董事长袁斌表示。
自从去年10月,借助发布iPhone 4S之势推出Siri语音问答系统以来,全世界都掀起了一场语音技术热潮,这些长期被边缘化的公司瞬间成为了市场关注的焦点。前有Ciriis和Airi,后有科大讯飞的“语点”。
被资本市场高度热捧的是市场是机会还是陷阱?目前下定论显然有点早。
过去的一个月,国内众多从事语音技术的公司都是Siri的跟随者,而他们面临的共同问题是,Siri听得懂你在说什么,却不理解你在说什么。至少目前来看,语音市场距离大规模商用依然有不小的距离。
这个问题的出现并不意外,因为即便是苹果的Siri同样困扰于此。近日,Siri在国外遭到了多起诉讼,原因是Siri无法准确理解用户的问题,苹果涉嫌夸大宣传。由此可见,如果Siri尚且不够完美,那么中国的Siri必定还有更多的路要走。
“最后的礼物”不完美
2011年10月,苹果iPhone 4S发布,虽然iPhone 4S无甚亮点,但其配备的语音控制助手Siri一经发布便艳惊全球,被称为乔布斯送给这个世界“最后的礼物”。
这是苹果唯一一款打上Beta标签的产品,但却承载了巨大的期望。苹果可以借此机会创建一个人工智能程序的生态系统,将Siri做成平台,让Siri与其他程序结合,Siri本身将成为入口,其结果是Google的搜索形式将被颠覆,用户可以通过更自然的交互方式直接获得答案。《纽约时报》撰文称:Siri代表着苹果的商业未来,也预示着未来“搜索”的形态。
虽然苹果有长远的规划,但Siri的发布还是略显仓促,实现这些美好愿景尚需时日。Siri所具有的发电子邮件、播放音乐、安排会议等诸多功能用户使用频率并不高。最新的一项调查显示,30%的用户从未使用Siri来发送电子邮件,32%的用户分别表示自己从未使用Siri播放音乐,对Siri表示非常满意的用户只有55%。
本月早些时候,纽约iPhone 4S用户弗兰克·法齐奥(Frank M. Fazio)在加州联邦法院提起诉讼,指控苹果发布的广告中对Siri功能的描述存在“误导性和欺骗性信息”。另一位iPhone 4S用户大卫·琼斯(David Jones)在美国加州库珀蒂诺对苹果提起诉讼,指控苹果错误地描述了Siri功能。“Siri要么无法理解原告所提出的问题,要么在经过长时间等待后提供了错误的答案。”
语义识别之难
为什么Siri会有这些不完美?国内从事了十年智能网络机器人研究的小i机器人董事长袁斌解释称,Siri最难的技术不是语音,而是语义识别。
我们现在看到的Siri实际上由两部分组成,一部分是语音识别,一部分是语义识别。当用户对Siri讲一句话时,语音识别分析出这句话说的是什么,语义识别分析出这句话是什么意思。语音和语义两部分技术在Siri中所占的比例分别是20%和80%。也就是说,要正确理解用户的意思并作出反应,语义识别实际上更为关键。
脱胎于美国国防部技术的Siri真正擅长的是语义识别。语音识别部分,Siri选择跟语音识别引擎Nuance合作。Siri现在的任务是不断加强其语义识别能力,建立更加庞大的数据库。据说苹果已经在印度招大量工程师进行数据库的梳理。
语义识别的另外一个挑战是,内容越多,对智能识别的挑战越大,需要的算法更强。
从事了多年语音技术研究的李开复也表达过类似的观点,他说:“人们一旦开使用语音跟你交流了,就会把你当做一个人,这个带来的超级高的期望值会给语音带来很大的挑战。”
Siri不适合创业公司
Siri的火爆让不少国内的创业者非常兴奋,因为它代表着一个可以探索的新方向,但是不少业内人士对此表示怀疑态度。
李开复曾在微博中称:“‘中国Siri’创业计划不太适合中国创业公司,需要解决的问题很多也很棘手,主要是新的智能语音控制技术如何引导用户行为,再是克服海量数据学习门槛和应用整合困难等。”
国内现在已有的类Siri应用,Ciriis和Airi,尚且都停留在娱乐层面,而前段时间科大讯飞高调发布的“讯飞语点”也并未有实质性突破,如果一句话中间增加停顿,它便无法正确理解。
袁斌认为,要做中国的Siri,第一需要语料库,第二需要人工智能的算法。讯飞拥有前者的优势,但后者仍需积累摸索。“需要长期的、系统的平台去处理每天进来的海量的知识,经过长期的集聚,形成工程化的产品,最后才能对每天进来的知识进行去重、筛选,同时能够学习新的知识点。”
袁斌认为,无论谁做语音控制技术或者智能识别技术,这些问题都无法绕开。解决了,则柳暗花明,解决不了,只有死路一条。(文/TechWeb)