古籍凝聚着前人的心血和智慧,是传承中华文明的重要载体。在当下的数字时代,古籍的再生性保护备受业界关注。2月8日,由国家图书馆、北京大学和字节跳动公司合作推出的《永乐大典》高清影像数据库(第一辑),在古籍数字化平台“识典古籍”正式上线,免费面向公众开放。借助科技的赋能,藏在珍贵古籍里的中华文化“活”了起来。
《永乐大典》是明成祖(朱棣)永乐年间编纂的一部大型百科全书,大量保存了中国14世纪以前的文学、艺术、史地、哲学和应用科学等方面的丰富资料,是中华典籍瑰宝。据统计,《永乐大典》副本仅有400余册存世,总数不及原书的4%,分散于在8个国家和地区的30多个公私藏家手中。国家图书馆共收藏《永乐大典》224 册,约占现存总数的一半。在业界专家学者看来,古籍保护传承应尽快推进古籍点校整理和数字化,探索多种方式活化古籍。
作为国家图书馆、北京大学的合作伙伴,字节跳动积极参与古籍保护工作。2021年,国家图书馆与中国文物保护基金会签署协议,由中国文保基金会字节跳动古籍保护专项基金投入资助,用于中华珍贵古籍修复和专业人才培养、古籍活化与数字化等项目,其中也包含修复《永乐大典》“湖”字册。如今,通过北京大学-字节跳动数字人文开放实验室,字节跳动团队又利用技术能力参与到《永乐大典》数字图书馆的建设中来。
在面对古籍数字化这一问题时,项目设计与研发团队就一直在思考:如何让一个习惯刷手机的普通用户来看这些晦涩难懂的古代文献呢?对此,团队希望以“重新阐释”的方法来活化古籍。“这种重新阐释不是一字一句去翻译,而是要跟当代人生活结合在一起,为我们当代人精神提供养料,这样才能真正实现活化。”这意味着,将整理古籍这件事放到全球文明体系下来看待,典籍的重新整理不仅要连接过去与现代,而且要沟通东方和西方。这一理念也成为北京大学和字节跳动合作的一个终极目标,即要打造融媒体环境下典籍传承的完整生态,为当代人提供心灵滋养和精神寄托。
此次上线的《永乐大典》高清影像数据库(第一辑)收录国家图书馆藏《永乐大典》40册、75卷,共涉及14个韵部、17个韵字、1800部书,除呈现《永乐大典》高精图像、整体风貌及相关知识外,尝试对部分大典内容做了知识标引示范,为后续《永乐大典》的知识体系化、利用智能化进行探索。打开“识典古籍”网页,用户可以看到,3D古籍模型尽可能还原了《永乐大典》原貌,让用户可以360度翻阅永乐大典,直观感受并体验大典的内页纸张、流散轨迹、分布状态、波折的流转历程,并提供丰富的原文和引文阅读。
此次《永乐大典》高清影像数据库的成功上线,背后离不开字节跳动的技术加持。据悉,“识典古籍”平台主要使用了3种技术,即文字识别、自动标点、命名实体识别。文字识别技术可以对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
据了解,此次图书馆与高校、科技公司合作,在古籍数字人文建设方面提供了一个合作样板,为后续进一步提升《永乐大典》的知识体系化、利用智能化打下了很好的基础,也为未来全国智慧图书馆体系建设提供一个可资借鉴的模式。