AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架
澎湃新闻
2023-10-26 08:21:32
0

原标题:AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。

·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。

信也科技算法科学家倪博溢。

10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。

方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。

金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。

度量方言间的距离

我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。

要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。

但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。

理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。

倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。

第八届信也科技杯算法大赛总决赛现场,选手在答辩。

那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。

方言底层逻辑+大模型

今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。

语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。

“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。

尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。

在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。

相关内容

热门资讯

游戏介绍!十人牛牛房卡代理,牛... jsx0Q苹果手机虽然备受消费者的欢迎,同时也搭载的是自研的iOS系统,但是在很多方面,苹果也借鉴和...
游戏推荐大厅房卡如何购买,金花... a2le提到OPPO,大家都是很熟悉的,使用过OPPO手机的用户都知道,OPPO手机外观非常大气时尚...
评测!金花房卡全国代理,牛牛房... H3JyobT而在电池续航方面, iPhone 15 Pro内置3095 mAh电池,而 iPhon...
游戏测评!正规房卡出售平台,牛... VZq对于库克引以为傲的第二个设计,就是相机镜头数量的增加,虽然当前主流的手机,后置相机镜头的数量维...
原创 从... 在智能手机领域,提到OPPO Reno系列,总会让人忍不住想起那个曾经火遍大江南北的R系列。彼时,R...
1月新机阵容曝光:小米、华为 ... 距离2025年还有不到一周的时间,有爆料显示,各大厂商将在开年之际献出自家的中端系列新机。 据博主@...
游戏!正规房卡出售平台,牛牛科... 2Bof据悉,“灵动岛”是苹果公司最新的手机设计语言,其能够将通知和其他信息以类似于动画的方式呈现在...
游戏指南!微信金花房卡怎么弄,... OYVMLmTk当然,行业在发展,相信在接下来realme手机会再接再厉,为行业带来更有竞争力的产品...
游戏推荐牛房卡价格,斗牛房卡出... Qwo6b和iPhone13相比少了mini版本,毕竟小屏手机在市场的销量确实并不怎么好,为了适应市...
游戏知识!微信房卡联系人,12... ZazNkMy使得该机的综合硬件配置可以说是达到了一个新高峰。如果上述曝光的这款realme GT3...
游戏推荐牛牛房卡批发市场,正规... zNCu5X20W有线快充速度的确比安卓手机慢,但回想一下,我们有几次充电是将手机电量完全耗尽的?基...
游戏推荐牛牛房卡最低价格,金花... fx1g最核心的处理器,其实真没必要多讲,iPhone13搭载A15芯片,尽管是“阉割版”,但依旧是...
原创 一... 12月25日,一加Ace5价格被曝光,12GB+256GB版售价2399元。意外的原因很简单,一加A...
游戏金花房卡平台购买联系方式,... bSGkcKGg在苹果公司的 iOS系统中,我们已经可以通过控制中心来控制手机的亮度、音量、Wi-F...
游戏!微信金花房卡充值,金花牛... gkC7iPhone 14沿袭了iPhone 13设计风格,搭配了一块刘海屏风格的6.1英寸OLED...
游戏指南!正版金花房卡批发,牛... Vh0X你可以“持币”等待iPhone14,听说它依然搭载A15,屏幕升级到了90Hz,后置双摄还是...
游戏指南!金花房卡哪里有的卖,... PyRGanW对于库克引以为傲的第二个设计,就是相机镜头数量的增加,虽然当前主流的手机,后置相机镜头...
年终盘点之2024年AI大事件 AI技术无疑是2024年最炙手可热的科技词汇,其内涵和外延都在随着人们越来越广泛的认可和应用变得无比...
重庆云潼科技取得驱动电路相关专... 金融界2024年12月25日消息,国家知识产权局信息显示,重庆云潼科技有限公司取得一项名为“一种驱动...
“另类”生图产品,上线4个月拿... 文 | 白鲸出海 伟大的想法画在餐巾纸上。 最近,编辑部用来做文章配图的一款产品,访问量在快速上涨...