「识典古籍」上线,北大携字节搭建免费开放的「智能图书馆」

摘要

人工智能助力古籍数字化。

10 月 11 日,由「北京大学—字节跳动数字人文开放实验室」研发的古籍数字化平台「识典古籍」测试版正式上线。

目前,「识典古籍」涵盖 390 部经典古籍,主要来自《四部丛刊》,共计 3000 多万字,即日起向公众免费开放。上线的「识典古籍」平台,提供古籍影印底本作为参照,还具备主题词检索和繁简体转换功能。

「识典古籍」使用了文字识别、自动标点、命名实体识别技术,对古籍的影印版文字进行单个切分后,再进行文字识别和顺序识别,通过序列标注的方式对古籍自动进行标点划分,也通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,「识典古籍」的准确率达到了 96% 至 97%。

当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的 20 多万种古籍中,只有 8 万种完成影像数字化扫描,近 4 万种完成文本数字化。有了人工智能技术的辅助,能加快古籍修复整理的进程。

据介绍,未来三年,「识典古籍」将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。