近日,Mozilla技术战略副总裁Sean White宣布将推出第一个开源的语音识别版本,其发音准确性已经接近普通人的水平。
遗憾的是该项目的语音数据依然较少,应用领域十分有限,因此Mozilla公司希望通过开源的方式让更多的研究人员与公司参与这项功能的开发。
Mozilla采用了先进的机器学习技术来构建语音文本转换引擎,经LibriSpeech测试,错误率仅为6.5%。该语音版本包含了Python、NodeJS和一个二进制命令行文件的预建包,开发人员可以使用它们来完善语音识别功能。
此次开源将发布近40万个录音,并且任何人都可以下载这些数据,它们希望通过开源的方式建立一个人人都可以使用的语音数据库进而开发出相应的语音应用程序。
目前该公司已经开始对英文进行录音,预计在2018年上半年它们将会对更多语言的语音进行录音。