AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架
澎湃新闻
2023-10-26 08:21:32
0

原标题:AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。

·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。

信也科技算法科学家倪博溢。

10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。

方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。

金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。

度量方言间的距离

我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。

要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。

但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。

理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。

倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。

第八届信也科技杯算法大赛总决赛现场,选手在答辩。

那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。

方言底层逻辑+大模型

今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。

语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。

“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。

尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。

在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。

相关内容

热门资讯

现代服务器的多重使命与核心功能... 在现代信息技术的浪潮中,服务器以其核心的地位和作用,支撑着个人用户和企业机构的日常运作。为了更好地理...
重大通报牛牛房卡怎么充值,金花... U08e2RZ而且,iPhone14系列所搭载的处理器也是传出了消息,即使苹果A系列处理器的性能已经...
短剧点燃香港国际影视展 “这届香港国际影视展(FILMART)比往届都热闹。”参加过多届FILMART的影视人向《每日经济新...
重大发现微信金花房卡链接,斗牛... GTU8再加上直面屏的设计以及控制得相当合理的前置挖孔,因此整个手机正面的视频效果非常的赏心悦目。并...
我来教你美猴王牛牛房卡哪里买,... Vba再加上直面屏的设计以及控制得相当合理的前置挖孔,因此整个手机正面的视频效果非常的赏心悦目。并且...
科技通报牛牛房卡哪家便宜,牛牛... yg是一个为智能手机发展做出了杰出贡献的手机厂商,再加上丰富的技术积累以及强大的研发能力,因此摩托罗...
实测分享斗牛房卡价格表,牛牛金... 7请输入标签内容...1、打开大厅APP,进入首页后点击商城按钮更多详情添加微:9696053912...
带你了解金花房卡哪里有的卖,斗... W1taLRT能够打败“阉割版”A15芯片的只有“满血版”A15,所以如果你在意性能,那么iPhon...
重大通报牛牛房卡专卖店,正版房... L0NmvYE当然,行业在发展,相信在接下来realme手机会再接再厉,为行业带来更有竞争力的产品。...
重大来袭牛牛金花房卡怎么充值,... BWU强得有些离谱!上述曝光的这款realme GT3,更惊艳的极边微孔直屏的全面屏设计带来了赏心悦...
玩家实测牛牛卖房卡多少钱一张,... KGiEyijs此次iPhone 14系列共有四款机型,iPhone 14、iPhone 14 Ma...
重大来袭牛牛房卡批发平台,金花... N尽管目前距离 iPhone 15 系列的亮相还有很长一段时间,但按照以往的惯例,该系列新机势必会在...
带你了解牛牛房卡在哪里购买,牛... 4x8nWI最近,外网就将苹果公司为用户准备的惊喜曝光了,那就是iPhone 14Pro的全新配色,...
重大来袭牛牛房卡怎么卖,斗牛房... dIKTTFt是一个为智能手机发展做出了杰出贡献的手机厂商,再加上丰富的技术积累以及强大的研发能力,...
玩家实测牛牛房卡专卖店,斗牛房... wIIf3Ne从相机配置来看,这款OPPO Reno10新机采用了后置四摄的设计方案,分别由一英寸大...
重大来袭正版游戏大厅房卡如何购... iV从核心配置来看,这款OPPO Reno9手机搭载了高通骁龙778G处理器,采用了更先进的6nm工...
重大通报大厅房卡如何购买,房卡... rRel这其中,iPhone 14标准版的两款,即iPhone 14、iPhone 14Max依旧沿...
带你了解金花房卡链接怎么买,金... K8MwC5o0苹果手机如今基本已经成为了高端旗舰机型的代名词了,在全新的iPhone 14系列即将...
科技通报牛牛怎么建房间,微信金... fk3gebs20W有线快充速度的确比安卓手机慢,但回想一下,我们有几次充电是将手机电量完全耗尽的?...
玩家实测微信金花房卡到哪里买,... 75eg5F6h而且有消息称iPhone14系列中的标准版和新增的Max版本都将搭载A15处理器,又...