数据存储产业服务平台

达摩院技术助力海外古籍数字化回归,AI识别20万页古籍准确率达97.5%

离家百年、去国万里,它们回来了。5月18日,“汉典重光”海外古籍数字化回归发布会在中国科技馆举行。一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地汉典重光古籍平台。借助阿里达摩院的技术,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。据悉,达摩院AI对20万页古籍的识别准确率达到97.5%。

“汉典重光”项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展,旨在寻觅流散海外的中国古籍并将其数字化、公共化,让普通人也能亲近古籍,通过古籍与先贤对话,与优秀传统文化对话。

汉典重光古籍数字化平台

因邦交、贸易、战乱等,历史上中国古籍时有出海,近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

加州大学伯克利分校是美国的汉学研究重镇,中文藏书量排名全美第三。首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。

文澜阁版《宋百家诗存》(卷七)

伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。古汉语常用字仅有几千,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。

达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。

该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。

阿里巴巴达摩院院长张建锋

阿里巴巴达摩院院长张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。

与古籍打了一辈子交道的陈力说,典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护和传承,让更多普通人有机会接触古籍、使用古籍,让所有蒙尘的古籍重焕新生,让书写在古籍里的文字活起来。

附:

“汉典重光”首批数字化古籍重要书目一览

1、周易兼义九卷(魏)王弼(晋)韩康伯注(唐)孔颖达疏 元刻本

2、易附记十六卷[存卷一至十一]书附记十四卷诗附记十卷[存卷一至七]礼记附记囗卷[存卷四至六]春秋附记[缺卷七、九](清)翁方纲撰 稿本,嘉业堂藏书

3、五代史阙文一卷(宋)王禹偁撰 清乾隆南昌彭氏知圣道斋抄本,清彭元瑞跋,嘉业堂藏书

4、瀛壖杂志一卷(清)王韬撰 稿本 清魏彦、左桂、孙瀜、赵烈文题记

5、金石古文八卷(题)双华山人乔辑 清周亮工抄本 清吴骞跋

6、居业录八卷[存卷三至四](明)胡居仁撰 清乾隆文澜阁四库全书本,嘉业堂藏书

7、学思录一卷(封面题东塾存稿)(清)陈澧撰 稿本

8、丙丁龟鉴十卷(宋)柴望撰 天一阁抄本

9、新刊履斋示儿编二十三卷(宋)孙奕撰 明抄本,天一阁、嘉业堂递藏

10、蓬轩类记四卷(明)黄暐撰 明抄本 柯逢时校,汪氏振绮堂、刘氏嘉业堂递藏

11、大般若波罗蜜多经[存卷第二百五十四] 北宋写金栗山广惠禅院大藏本

12、苏文忠公文集[存一叶](宋)苏轼撰 宋四川眉山刻本

13、淮海集四十卷淮海后集六卷(宋)秦观撰 宋乾道九年高邮军学刻宋元明递修本,嘉业堂藏书

14、傅忠肃公文集三卷(宋)傅察撰 清初经鉏堂抄本,曹溶旧藏

15、鹤山先生大全文集一百十卷目录二卷[存卷一至九、九六、九十九至一百零三、一百九十](宋)魏了翁撰 民国蒋汝藻影宋抄本,密韵楼藏书

16、後村居士集五十卷目录二卷[卷四十六至五十缪荃孙抄配](宋)刘克庄撰 宋刻本,嘉业堂藏书

17、林子真诗一卷(明)林光宇撰 明曹学佺辑 明崇祯韩锡抄本

18、茗柯文编囗编囗卷[存初编一卷三编一卷四编一卷未编稿一卷](清)张惠言撰 稿本 清范当世、近人叶恭绰跋,嘉业堂藏书

19、宋百家诗存四十卷[存卷七](清)曹廷栋辑 清文澜阁四库全书本

20、西清诗话三卷(题)无为子撰 明抄本,嘉业堂藏书

21、拜经楼诗话续编二卷(清)吴骞撰 稿本,嘉业堂藏书

22、玉茗新词四种(明)汤显祖撰 明万历四十六年雕虫馆刻本

未经允许不得转载:存储在线-存储专业媒体 » 达摩院技术助力海外古籍数字化回归,AI识别20万页古籍准确率达97.5%