AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架
澎湃新闻
2023-10-26 08:21:32
0

原标题:AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。

·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。

信也科技算法科学家倪博溢。

10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。

方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。

金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。

度量方言间的距离

我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。

要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。

但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。

理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。

倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。

第八届信也科技杯算法大赛总决赛现场,选手在答辩。

那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。

方言底层逻辑+大模型

今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。

语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。

“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。

尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。

在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。

相关内容

热门资讯

科普!新全游房卡联系方式悠悠大... vy苹果手机目前发展的情况并不是特别好,一方面是有消息称iOS16可能不会带来特别多的改变,另一方面...
玩家秘籍朱雀大厅房卡哪里买获取... vy苹果手机目前发展的情况并不是特别好,一方面是有消息称iOS16可能不会带来特别多的改变,另一方面...
欢喜大厅拼三张新众亿大厅在哪买... 欢喜大厅拼三张新众亿大厅在哪买房卡新道游牛牛房卡联系方式咨询房/卡添加微信:474330444据参考...
牛牛房卡贝塔大厅拼三张房卡哪里... 牛牛房卡贝塔大厅拼三张房卡哪里买的(悠悠大厅房卡链接购买)(今日/知乎)无需打开直接搜索微信【474...
乐酷大厅房卡微信新道游大厅房卡... 40g说对14系列不满意的朋友来说,是完全足够用的无需打开直接搜索微信:474330444 其支持6...
「重大通报」随意玩房卡充值灵尊... 「重大通报」随意玩房卡充值灵尊大厅牛牛房卡去哪里买【无需打开直接搜索微信;【474330444】 操...
新好游房卡批发价格表女娲大厅房... 【房卡找谁充值,加微信474330444无需打开,直接加微信咨询.专业多年代理批发,诚信靠谱!拼十张...
九九大厅房卡链接购买牛牛卖房卡... 九九大厅房卡链接购买牛牛卖房卡多少钱一张已更新(充值/房卡) 炸金花房卡购买加:微(4743304...
青龙大厅游戏房卡新天地大厅房卡... 青龙大厅游戏房卡新天地大厅房卡怎么购买火凤悠闲房卡链接购买【要素一】(KK)微信链接各大厅/房卡介绍...
天龙大厅斗牛房卡充值新道游大厅... 牛牛是一款非常受欢迎的棋牌游戏,咨询房/卡添加微信:474330444许多玩家在游戏中会购买房卡来享...
新道游拼三张金花房卡多钱一张房... 新道游拼三张金花房卡多钱一张房卡怎么购买要素一(KK)大厅介绍/房卡微/474330444金花是一款...
普及一下微信群怎么开牛牛房间悠... 普及一下微信群怎么开牛牛房间悠悠大厅平台房卡怎么购买【无需打开直接搜索微信;【474330444】 ...
华为hcie有多少人了?hci... 新盟教育 华为HALP授权培训合作伙伴 官方授权 培训学习更有保障! 华为HCIE认证是华为认证...
我来教教大家牛牛房卡制作链接神... 我来教教大家牛牛房卡制作链接神皇大厅房卡链接怎么弄(今日/知乎)无需打开直接搜索微信【4743304...
重庆首例!无人机首次清洗长江干... “无人机已到达既定高度,瞄准目标,喷水!”3月18日上午10时21分,在长江干线重庆段一个监测塔上,...
重大发现斗牛房卡批发价,牛牛房... Ni92iPhone13后置1200万广角+1200万超广角,广角升级了传感器位移式光学防抖,使得视...
我来告诉你牛牛房卡批发价,全游... ihqCQ此次iPhone 14系列共有四款机型,iPhone 14、iPhone 14 Max、i...
重大通报牛房卡价格,牛牛科技房... nuJm不仅影像能力再度突破,还都适配了鸿蒙OS3.1,甚至原本单向的北斗卫星消息如今也升级为了双向...
玄龙大厅房卡链接购买大圣大厅怎... 玄龙大厅房卡链接购买大圣大厅怎么买房卡人皇大厅房卡链接购买 炸金花房卡购买加:微(47433044...
重大发现正版金花房卡批发,微信... yTODnWv你可以“持币”等待iPhone14,听说它依然搭载A15,屏幕升级到了90Hz,后置双...