.jpg)
#北大联合字节在线免费古籍阅读平台#
近日,由“北京大学-字节跳动数字人文开放实验室”开发的古籍数字化阅读平台“读古籍”测试版正式上线。平台涵盖经典古籍390种,主要来自四大系列,共计3000多万字。从现在起它将免费向公众开放。
在很多人的印象中,古籍的文字往往难以理解,接触的机会也很少。在数字时代,这种情况正在改变。借助现代技术,古籍记录的数字化呈现,将浩如烟海的古籍记录“复活”,让那些尘封的文字重新跳跃起来,从而成为人人触手可及的工具和数据库。
近年来,OCR(光学字符识别)、AI(人工智能)句子阅读、知识图谱等技术的快速发展,使得古籍数字化成为可能。一些科技公司与专业机构、科研院所合作,将技术优势与专业知识有效融合,积累了相对成熟的技术和经验。
这些技术支撑了今天的“读古籍”测试版,也成为更多古籍数字化的起点。未来三年,“北京大学-字节跳动数字人文开放实验室”将逐步完成1万种古籍的智能整理,基本覆盖儒释道核心目录。
“读古书”beta网站首页
为什么古籍保护需要更加开放?
古籍作为中国文化传承的重要渠道之一,记录了大量的中国文化形态和发展历史。然而,由于朝代更替、战争、自然灾害和年代久远,大量古籍已经丢失或被毁。2007年,“中国古籍保护计划”开始实施,至今已有15年。
全国古籍普查后,每一部古籍都有了“身份证”,研究者还发现了包括《永乐大典》“湖”字字典在内的一批珍贵文献。在收藏环境方面,全国1000多家古籍收藏单位的库房条件得到改善,2000多万册/件古籍得到妥善保护。
古籍修复师正在工作。
2022年,人们阅读古籍、查找资料的习惯和场景越来越多地转移到线上。与此同时,普通读者对古籍的关注度也在上升。今年年初,98岁高龄的古籍目录学家沈因一部纪录片在网络上广受关注并走红。
在,中国国家图书馆副馆长、国家古籍保护中心副主任,国家图书馆古籍修复专家杜,故宫书画修复专家沈等。,以短视频的形式介绍了传统经典作品的保护和修复,让更多的人了解它们的知识和意义。
然而,古籍保护依然任重道远。据“读古籍”项目负责人介绍,目前急需修复的古籍已达1000万册/件。20万种古籍中,8万种已经过数字化扫描,近4万种已经数字化。古籍修复的人力成本非常高,培养一个专业的修复师需要非常高的时间成本。但古籍数字化也面临资金缺口大、技术难度高等困难。
在社会各界的努力下,出现了一批数字古籍平台,包括中国文字工程、相同古籍数据库等。这些平台各有优势,但也有不同的局限性。同类书和古籍的数据库成本很高,普通读者无法随时随地查阅和使用。目前,中国哲学书籍的电子程序涵盖了3万多部作品,但它未能解决一个基本问题,用户经常无法访问它。
在这种背景下,更多的开放合作和探索开始出现。
开放合作下的新趋势
在文物保护传承过程中,文保机构、科研院所、科技公司的跨界合作越来越普遍,珍贵古籍、专业团队、先进技术也因此得以汇聚。2018年,半导体公司英特尔与中国文物保护基金会合作,启动了通过3D建模和AI识别修复长城的项目。2021年3月,腾讯联合敦煌研究院研发出AI疾病识别技术,用于壁画修复保护。
2021年5月,阿里巴巴公益基金会联合四川大学、加州大学伯克利分校、中国国家图书馆等。,推出“汉典重光”古籍平台,让一批收藏在加州大学伯克利分校的中国古籍善本以数字化形式回归。该平台涵盖20万页古籍。
2021年6月起,字节跳动联合国家图书馆等机构、中国文物保护基金会等,在古籍修复、活化、数字化等领域开展了一系列合作,包括捐赠1000万元、共同设立古籍保护专项基金等。,定向修复珍贵古籍100余部。
字节跳动古籍保护专项基金启动现场
2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于开发开放的“古籍数字化平台”,将人工智能和大数据应用于海量古籍,实现古籍的智能整理和古文知识图谱的自动生成。
这一合作的最新进展是最近推出的“读古书”平台测试版。据项目负责人介绍,该平台主要使用了三项技术,即字符识别、自动标点和命名实体识别。
文字识别技术是指对古籍影印文字进行单切分、字符识别和序列识别。自动标点技术是通过顺序标注的方式对古籍进行自动标点划分。命名实体识别是指通过顺序标注的方式识别古文中的命名实体,支持人名、地名、书籍、时间、官职等信息的识别。目前业内OCR识别的平均准确率为93%到94%,“识别古籍”的准确率为96%到97%。
同时,这些先进的技术也离不开人的支持。北京大学数字人文研究中心主任王军表示,在此次合作中,北京大学联合各高校的学者和文献专家,负责人工审校,弥补人工智能在识别错误率上的不足,利用自身的学术平台连接更多的专业研究人员和学生群体。
该平台的测试版已经免费向所有用户开放。除了数字化的文字内容之外,提供了足够权威的影印件供参考,同时提供了关键词检索和简化转换的功能,方便专业研究者和古籍爱好者以更高效便捷的方式获取古籍内容。同时,《识古书》测试版也存在一些不足。比如古籍数量比较少,标点错误率需要进一步降低。
“阅读古籍”测试页
接下来,“北京大学-字节跳动数字人文开放实验室”计划通过人工智能技术实现自动整理校对,借助全社会的力量,更高效地将所有库存古籍数字化。同时,“懂古籍”还将向全社会开放古籍阅读检索研究能力,助力古籍文化传承和传统文化研究。
编辑:段雅璐
.jpg)
.jpg)
).jpg)
.jpg)

.jpg)
.jpg)
.jpg)
.jpg)


.jpg)
.jpg)
.jpg)

.jpg)
.jpg)
.jpg)

.jpg)
).jpg)
.jpg)

.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)