AI助力让古文字被看见,首个古彝文编码库发布
北京日报
2023-09-27 17:30:24
0

原标题:AI助力让古文字被看见,首个古彝文编码库发布

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》,其主人公奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在2009年便已发布,如今突然“翻红”,不仅体现了大众对于少数民族文化高涨的兴趣,也见证着优秀的传统文化不息的生命力。文字是文化的重要载体,古彝文承载了深远的彝族历史内涵,蕴含着丰富的文化信息。近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。

以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。

当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。此外,在彝文的发展过程中,种种因素导致异体字、变体字特别丰富,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的识别带来了极大的挑战。基于上述情况,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文介绍,在对7.6万字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。据悉,通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

构建古彝文“大字典”需要解决的首要问题并非文字识别,而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,往往会变得模糊不清或残缺不全。在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。

在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描工具扫描全能王,其基于AI技术及智能扫描引擎的“智能高清滤镜”功能,能够自动检测图像中存在的问题,一键处理模糊、阴影、手指、屏幕纹等干扰因素,减轻后续图片处理工作,缩短内容识别、编码的操作周期。为发动更多的社会力量参与到古彝文识别和保护,平台还同步启动了公益性活动,上线了古彝文典籍上传入口,面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。

“古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。

相关内容

热门资讯

字节被曝大模型训练遭实习生攻击... 【CNMO科技消息】10月18日,一则消息在微信群内广泛流传,声称某头部大厂的大模型训练遭遇实习生入...
山水论坛访谈 | 邓文中:发展... 人工智能如何赋能未来城市发展?10月18日,美国国家工程院院士、中国工程院外籍院士邓文中在第七届山水...
喜报!广药集团荣获两项2023... 转自:广药白云山 10月17日,全省科技大会在广州召开,会上颁发了2023年度广东省科学技术奖。广东...
国内首个五星5G工厂,特别在哪... 本文转自【央视新闻客户端】; 日前,国内首个五星5G工厂——中兴通讯南京智能滨江5G工厂通过中国信息...
导尿管扭结稳定性测试仪的性能参... 文章由济南乾元仪器有限公司提供 导尿管扭结稳定性测试仪是一种重要的医疗设备,专门用于测试导尿管在扭结...
数字化趋势中的石英晶体和振荡器 近年来,“物联网”(IoT)这个术语已经变得广为人知。物联网设备能够彼此无线通信,通常使用诸如WiF...
原创 苹... 10月份各大手机品牌都在陆续发布新一代旗舰机,毕竟高通和联发科的新一代旗舰芯片陆续登场。这次的新一代...
三星HBM3E仍未通过英伟达认... 10月17日消息,据韩国媒体ZDNet Korea报导,虽然三星今年以来积极地想通过英伟达HBM3E...
智能计算机模拟:探索复杂系统与... 计算机模拟:探索虚拟世界的工具 Computer Simulation: A Tool for E...
视频号文章跨平台分发有哪些利弊... 视频号文章跨平台分发的利弊分析及抖音批量发布视频策略 随着互联网的发展,内容创作者越来越多地采用跨平...
科技昨夜今晨1018:OPPO... “科技昨夜今晨”时间,大家好,现在是 2024 年 10 月 18 日星期五,今天的重要科技资讯有:...
笔记本也能生成4096x409... NVIDIA、麻省理工学院 (MIT) 和京都精华大学的研究团队发布了一款名为“Sana”的图像生成...
杨利伟曾在太空听见“敲门声”,... 阅读此文前,麻烦您点击一下“关注”,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。...
把握交通设备更新政策机遇 交通运输大规模设备更新,推动了老旧设备向高端、智能、绿色方向升级,能够显著提升供给体系质量效益。应强...
星动纪元完成近3亿元融资!大模... 本报(chinatimes.net.cn)记者石飞月 北京报道 大模型的东风刮过,不仅让芯片企业、芯...
微软Azure将调整中国内地O... 近日,微软宣布自2024年10月21日起,将停止向中国内地个人用户提供Azure OpenAI服务。...
建发股份在厦门成立科技公司 含... 松果财经讯,天眼查App显示,近日,厦门建悦钢丰科技有限公司成立,法定代表人为程东方,注册资本650...
广东电网申请设备漏电识别专利,... 金融界2024年10月18日消息,国家知识产权局信息显示,广东电网有限责任公司申请一项名为“设备漏电...
智慧中医元年,记者实探鹰眼智慧... 本报(chinatimes.net.cn)记者王悦 北京报道 弥漫着中草药味道的老药铺、正望闻问切的...
中山大学:解锁“AI+病毒学”... “通过LucaProt,我们发现了许多未研究过的病毒群体,以及具有特殊长度、复杂基因组结构的RNA病...