作者:加零
编辑:李宝珠
转载请联系本公众号获得授权,并标明来源
近年来,AI 在历史研究领域成果颇丰,本文以古文字释读为例,介绍了当下国内外的重要成果。
「明年我们去法国接甲骨文回家」,2024 年 12 月下旬,安阳师范学院甲骨文信息处理教育部重点实验室的研究人员远赴法国,与法国国家图书馆等 4 家甲骨文收藏机构签订合作协议,将以数字化形态将已经远离故土许久的甲骨文文化遗产「接回家」。
2024 年 8 月 5 日,「全球甲骨数字回归计划」正式启程,实验室主任刘永革带领团队成员张展、李邦、郭安、龚慕凡飞往韩国,于 8 月 13 日带回了 7 片甲骨实物的高保真数据,这也是我国流失海外的甲骨文化遗产首次以数字化形态重归故里。
2024 年 6 月,刘永革主任以通讯作者的身份,联合华中科技大学、阿德莱德大学、华南理工大学的研究人员,利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型 Oracle Bone Script Decipher (OBSD),研究成果不仅入选了 ACL 2024,还成功获评最佳论文。
* 点击查看详细报道:入选ACL 2024!引入零样本学习,华中科大发布针对甲骨文破译优化的条件扩散模型
此前,实验室还打造了集甲骨文文献库、著录库、字库三库合一的甲骨文大数据平台「殷契文渊」,并向全世界开放,这是世界上现有资料最齐全、最规范、最权威的甲骨文数据平台,它的开放标志着甲骨学研究进入智能化时代。
诚然,近年来,AI 在古文研究领域逐渐得到了更加深度的应用,在加速研究人员工作效率的同时,甚至成为了揭开历史神秘面纱的「圣手」。
古文释读,一字千金
2016 年,中国文字博物馆曾发布悬赏公告:破译未释读的甲骨文并经专家委员会鉴定通过的研究成果,单字奖励 10 万元。可谓「一字千金」。虽然赏金丰厚,但在甲骨文近 4 千个不重复的单字里,只有约 1,160 个被解读,仍有超 2 千个仍待探索,古文字考释的工作任重道远。
在传统历史研究中,古文字考释是一整套复杂的流程。
首先需要进行「校重」,即整理和校对重片。从甲骨文首次被发现至今,出土的甲骨实物约有 15 万片。这些甲骨在不同的人手中流转,留下了多张拓本图像,这些对同一片甲骨的不同拓本被称为「重片」,是解读甲骨文的重要材料。甲骨重片数量繁多,质量参差不齐,主要依靠研究人员肉眼校对,高度依赖经验,费时费力。
其次才是正式「释读」,第一步是对古文字的字形进行详尽的观察和分析,识别其笔画和结构。而后基于字形特征,结合古代文化、习俗和宗教等方面的背景知识,推测每个字的原始意义。在释读过程中,将古文字置于其出现的特定历史语境、音韵体系中进行考察,分析其在当时的意义和用法,同时与现代汉语或其他古代语言中的同源词进行比较,以确定其语义演变和词源关系。这需要学者们有丰富的专业知识储备,像侦探一般抽丝剥茧、触类旁通。
所幸,一字千金的路途上,有 AI 的协助。
校重工作需要对比和处理海量数据,并从中挖掘有用信息,这正是 AI 的专长。2022 年微软亚洲研究院 (MRSA) 的工作中,研究员武智融训练了一套自监督学习的深度神经网络算法——甲骨文校重助手 Diviner,将 18 万幅数字化拓本输入 Diviner 之后,它不仅提供了一批更全、更清晰的甲骨图像,更有不少堪称惊喜的新发现:
重而不同的新图像
如下图所示左侧是时间较早,没有拓全的甲骨拓本。右侧是时间较晚的拓本,甲骨残破只余下一部分,尽管拓全了但很不完整。通过将两个拓本重叠,获得了一张更加完整的甲骨图像,特别是右上部分的一段甲骨文字的完整展现,为甲骨文研究直接提供了一条新材料。
两个拓本叠加获得了一张完整的甲骨图像
有里有面的新图像
有些甲骨正反两面皆有文字,但有时只有一面留下了拓本。比如马保春先生曾发现这两版反面拓本可以缀合在一起。但其中一片的正面图像一直没有找到。Diviner 校重发现了下面一片甲骨的正反完整拓本,正面缀合复原的图像也终于得以呈现。
基于 Diviner 校重得到了正面缀合复原的图像
从重片到缀合
左侧图像是过去由张宇卫先生缀合在一起的两片甲骨。通过 Diviner 的校重发现,下部拓本原来还有一片更完整的重片。如此,两片甲骨的缀合就扩展成了三片甲骨的缀合。
由于材质坚硬容易破碎,原本完整的甲骨很多都碎裂为多个碎片,只有将它们恢复原样才具有更大的研究价值,这种复原工作就是甲骨缀合
从模糊到清晰
由于有些甲骨拓本质量不高,上面文字难以辨认,给甲骨学家带来很多困扰。如下图所示,模糊拓本上的文字让人难以辨认,直到发现了清晰的重片,才把过去的很多疑惑解决了。
甲骨文的释读工作目前主要依赖于专家的手工操作,但 AI 的应用有望简化这一过程,使之更加高效。今年 5 月 27 日,腾讯「殷契文渊」甲骨文 AI 协同平台正式上线。
殷契文渊旨在提供成熟、规范的系统及技术工具,助力提高甲骨文研究效率。研究人员可使用交互式甲骨全信息查看器,以排比或堆叠的方式查看和比较不同数字化版本的甲骨文,包括历史照片、高分辨率 3D 模型、数字摹本图和增强的数字拓片图。
升级版殷契文渊平台引入了多种工具,可直接解决甲骨文研究中遇到的主要难题:可视化和文字识别。由于甲骨脆弱易碎,是名副其实的无价之宝,研究人员通常无法直接接触甲骨。此外,由于甲骨碎片分散在中国和世界各地,使得研究难度进一步增大。
长期以来,研究人员必须对比每张图片,有时甚至要借助手绘笔记来寻找重复出现的字形,这一过程耗时耗力,而如今 AI 辅助功能可以大大提高破译甲骨文的效率和准确性。此外运用微痕增强技术,研究人员得以看清甲骨上的较浅刻痕,方便他们详细分析甲骨文笔画和甲骨背面轮廓分明的凹槽。
运用微痕增强技术观察甲骨上的较浅刻痕
为了便于搜索,每个甲骨文单字均已编入索引,无论是研究人员还是爱好者,都能够快速找到相关的学术论文,开展进一步研究,这大大缩短了甲骨文的处理时间。
AI 助力,点石成金
如果说从刻痕辨识文字的工作是一字千金,那么解读一本「无字天书」,似乎是点石成金的童话。
在 Nat Friedman、Daniel Gross 和 Brent Seales 发起的 Vesuvius Challenge 里 ,3 位年轻人携手 AI,揭开了上古卷轴(赫库兰尼姆卷轴)的神秘面纱。这组卷轴在公元 79 年被一场火山爆发掩埋碳化,1752 年才被挖掘出土。只要稍有不慎,脆弱的卷轴就会分分钟变成残片,根本无法通过物理方式展开。
通过给卷轴拍摄 CT 影像并借助机器学习技术分割识别,他们成为了从未打开卷轴,却「看」到了上面文字的人。
前 SpaceX 实习生 Luke Farritor 训练了一个关于裂纹模式的机器学习模型,并成功发现了一个完整的单词 ΠΟΡΦΥΡΑϹ,意思是「紫色」。随后,他与 Youssef 和 Julian 组成三人团队,分析出超 2 千个字符,内容被认为与伊壁鸠鲁哲学有关。在这个卷轴的两个连续片段中,作者提及了商品(如食物)的可获得性是否以及如何影响它们能带来的快乐。
* 伊壁鸠鲁是古希腊哲学家,在自然科学领域提出了原子论,对后世的伦理学和心理学发展都产生了重要影响
这一成就点燃了通常进展缓慢的古代研究世界,建立了考古研究的新范式。学者们认为,这将使古希腊和古罗马诗歌、戏剧和哲学作品的发现量成倍增加,其中一些文本可能会完全改写古代世界关键时期的历史。
过去 & 未来,科技淘金
不只是甲骨文解读,AI 在历史学的其他方面,同样有着极广阔的应用前景。比如预测未发现地点的位置,进行数字修复和重建,确定物品的年代和由来。
研究人员将机器学习算法与 LiDAR(激光探测与测量)技术结合,揭示了中美洲森林覆盖下的先前隐藏的玛雅结构和定居点。在危地马拉的 Petén 地区,AI 识别出了 6 万多个以前未知的玛雅结构,包括金字塔、宫殿和堤道。
此外,相信大家对于数字文博也不陌生,复旦大学科技考古研究院文少卿团队用专门适用于古 DNA 的捕获探针,从北周武帝肢骨样本上获取了约 100 万个可用的基因位点,还原了北周武帝头发、皮肤、瞳孔等关键特征。复原出北周武帝宇文邕的头像。
技术和历史探索的融合标志着历史学的一个新时代,在这个时代中,过去和未来汇聚在一起,照亮了人类的故事。未来,随着 AI 等新兴技术在这一领域的更加深刻应用,我们或许能够一览更加神秘、美妙的历史故事。
参考资料:
1.https://www.anyang.gov.cn/2025/01-02/2459358.html
戳“阅读原文”,免费获取海量数据集资源!
(文:HyperAI超神经)