随着人工智能的发展,翻译工作会不会被取代?科技正在改变人文研究,“数字人文”这一新学科应运而生。
10月27日到29日,第二届东亚古籍数字人文国际研讨会在杭州召开。会议由浙江大学文学院数字人文研究中心主办,参会的除了各高校、科研机构的学者,还有书同文、汉王、字节跳动、杭州中元数据等从事古籍数字化的企业。
伦敦大学学院教授 西蒙·马奥尼
在古籍相关的人文研究中,“数字人文”发展现状如何?面临怎样的问题?
当文史学者学会使用数字技术
开幕式上,中国古籍保护协会智能古籍开发与利用专委会会长北京大学信息管理系教授王军致辞。他提到在当下大数据、人工智能快速发展的当下,如何利用新技术,挖掘古籍价值,是我们当代人的任务。
北京大学数字人文研究中心主任 王军
作为计算机专家,他担任了北京大学数字人文研究中心主任。他表示,徐永明教授牵头维护了学术地图发布平台(amap.zju.edu.cn)、智慧古籍平台(csab.zju.edu.cn),浙江大学在古籍的数字人文探索中走在前列。
随后,几位与会专家代表进行了主旨报告。台湾中山大学教授简锦松分享了他在“现地研究”方面的成果。“现地研究”指通过实地考察的GPS等地理数据,结合古籍进行考证后。简教授提出这一方法,并实践多年,应用于唐诗、地志等古籍的研究。
台湾中山大学教授 简锦松
他以《行尽中州三万里》为题,展示了他走遍黄河到淮河地区,结合现代地理测绘、语言学等学科知识,对明代黄汴《天下水陆路程》等地志古籍的考证。
从古到今,古代道路、城市、地名发生各种变化,给今天的文史研究制造了困难。简教授表示,他走过大江南北,不断定位古代道路、驿站。“今天我们出门靠高德地图、百度地图,十分精细,我希望可以复原古代的‘高德地图’。”
在两天的会议中,与会人士分不同的会场进行讨论。比如,杭州师范大学博士生谷玲玲以杜珣编纂的历代女性诗人作品总集《闺海吟》入手,结合哈佛大学CBDB数据库,考察明清女诗人的时空分布和社交网络。这种利用数据分析辅助研究的方法,已经颇为常见。
哥伦比亚大学东亚语言文化系主任韩明士(Robert Hymes)教授通过对宋代江西抚州进行考察,发现士大夫的婚姻的变化:北宋时面向全国,南宋倾向于本地。这种婚姻关系经过数据分析,一目了然,背后则可以解读更深刻的结论:南宋士大夫远离都城,流向地方,成为地方社会建设的主力。
数字人文正在崛起发展
数字科技在古籍研究中的应用,今天体现在文学、历史学、文献学等方方面面。“数字人文”发展经过了几十年的过程。
南宋 罗大经《鹤林玉露》,王瑞来校注,中华书局1983年版
宋史学家王瑞来早年在北京大学求学时,就听老师们讲老一辈学者博闻强记,比如能背诵十三经、前四史。随着学术研究的发展,浩如烟海的资料已经不能只靠大脑。他发现,数字科技的进步可以解决在手工操作时代难以解决的问题。写毕业论文时,王瑞来研究南宋文人罗大经。比前辈们有优势,他可以利用《四库全书》电子版等数据库,检索更加方便。
浙江大学张涌泉教授是敦煌学专家。100年前,早期敦煌学学者王国维、姜亮夫等人看到的敦煌材料十分有限。今天,张涌泉可以看到大量材料,数据库里可以看到散落世界各地的敦煌文献。
张涌泉教授在上课,展示敦煌文献残片的缀合。央广网资料图。
如何将碎片进行拼合,张涌泉也在探索与计算机领域的团队合作,探讨人工智能的应用。据张涌泉教授的学生、青年学者朱若溪介绍,甲骨的边缘裂痕清晰,人工智能在甲骨文的拼缀方面,已经有了较成熟的技术。
国内外大学者,都纷纷注意到了数字科技可能带来的技术革新。去年5月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》(下称《意见》),从完善古籍工作体系、提升古籍工作质量、加快古籍资源转化利用等方面提出明确要求。
徐永明教授。
以数字技术推动人文研究,徐永明介绍古籍数字化和智能化发展,经历了四个阶段。首先是影像数字化,古籍以数字方式保存;第二阶段是OCR技术,古籍文字可以转成文本,古籍可以直接检索。这是目前广泛应用的数字人文成果。
“但真正让古籍“活起来”,还需要文史数据结构化、知识体系化和古籍智能化。”徐永明说。
国家图书馆《中国古籍资源库》中的资源。
数字人文发展,还在路上
参与本次国际研讨会的,除了古籍相关的人文学者,还包括计算机、信息档案等数字技术相关的学者。刘浏副教授来自南京农业大学信息管理学院,教授智能信息处理等课程。他承担了国家自然科学基金项目青年项目“基于深度学习的典籍引书知识图谱构建及应用研究”。在他看来,数字技术与人文领域的结合,不仅仅在古籍相关领域,在法律、艺术等领域也正在进行中。
尤其在语言学方面,人工智能、大数据的分析能力,可以产生很大助力。正因此,有学者认为,数字人文的跨时代意义,可以与1000年前雕版印刷术出现相提并论。
另一方面,作为交叉学科,正在起步阶段的数字人文也面临质疑。学界也有人士认为,目前的数字人文远远不能取代传统的研究方法。以古籍相关专业为例,目前爱如生、中华书局以及国家图书馆和各省图书馆推动的古籍数字化产品,线上查阅、OCR识别检索等功能很好用,但更进一步的信息数据整合,现有的人文数字成果的助力有限。
参会人员合照。
刘浏副教授指出,推动数字人文发展,数字技术的和人文领域的专家需要进一步沟通、理解,人文学者需要积极介入,加强与技术人员的合作。有了合力,数字人文的产品和成果才能更好地服务人文研究。
徐永明教授则提到另一个问题,数字人文所需的人力、物力、财力不小,这也是当下数字人文发展面临的阻碍因素。
值得注意的是,2022年,教育部发布最新《普通高等学校本科专业目录》,内蒙古师范大学蒙古学学院申报的数字人文专业获批,成为全国首个数字人文本科专业。数字人文是一条新的赛道,相信随着队伍不断壮大、技术不断进步,数字人文学科的前途会越来越乐观。
“转载请注明出处”