20多种欧洲语言面临“数字灭绝”
  • 上方文Q
  • 2012年10月15日 14:37
  • 0

欧洲语言技术高级专家近日发布研究报告称,在欧洲分布的30种语言里,有多达21种根本没有(non-existent)或者只有很差劲(weak)的数字技术支持,未来恐怕难逃“数字灭绝”的厄运。

这份长达30卷的报告来自34个国家60个研究中心组成的欧洲卓越科研网META-NET,有200多位专家参与其中。他们对每一种语言都从4个不同的领域进行了技术支持评估,包括自动翻译、语音交互、文本分析、语言资源可用性,并划分了不同的等级。

根据报告,冰岛语(Icelandic)、拉脱维亚语(Latvian)、立陶宛语(Lithuanian)、马耳他语(Maltese)等语言在全部四个方面都得分极低,保加利亚语(Bulgarian)、希腊语(Greek)、匈牙利语(Hungarian)、波兰语(Polish)的情况也不是很好。说这些语言的人已经很少,而且缺乏全面的技术支持,在数字时代前景堪忧。

荷兰语、法语、德语、意大利语、西班牙语的支持度都被评为中等(moderate),巴斯克语(Basque)、保加利亚语、加泰罗尼亚语(Catalan)、希腊语、匈牙利语、波兰语等等则被定为零星(fragmentary),因此被归为高风险语言类。

有趣的是,英语虽然毫无疑问是互联网第一大语言,技术支持也是欧洲所有语言中最好的,但支持度仍然算不上极好(excellent),只被评为良好(good)。

数字化的语言系统非常依赖海量的书面或口头数据,而对于那些使用者很少的语言来说,这些数据就很难获得,或者很难达到足够的丰富度。如果一种语言缺乏足够的技术支持,必然很难跟上数字时代的脚步,在拼写和语法检查、智能个人助理(比如Siri)、自动翻译、网络搜索引擎等方面都存在巨大的局限性,特别是在线机器翻译系统常常会给出令人啼笑皆非的错误翻译。

META-NET的协调员Hans Uszkoreit教授评论说: “我们的研究结果敲响了警钟。大部分欧洲语言都严重资源匮乏,有些甚至几乎完全被忽略了。从这个意义上说,我们的很多语言都很难经得起未来的考验。”

20多种欧洲语言面临“数字灭绝”

 

文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部0条评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0