首个支持30种方言混说语音大模型发布！中国电信人工智能研究院用AI守护方言

　　【CNMO科技新闻】“唔该查吓电话费吖”、“侬帮阿拉查下话费好伐？”粤语、上海话、四川话······中国电信万号智能客服每天接到几百万通电话，其中很大比例用方言拨打，尤其是“老少边穷”地区，一些老人习惯说方言，甚至只会说方言，智能客服及人工客服都难以理解，沟通效率难免大打折扣。据统计，全国仍有约20%人口未普及普通话，他们常常被隔绝在智能信息服务之外，难以享受到AI时代的便利。

　　近日，中国电信人工智能研究院（TeleAI）发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型，打破单一模型只能识别特定单一方言的困境，可同时识别理解粤语、上海话、四川话、温州话等30多种方言，是国内支持最多方言的语音识别大模型。中国电信人工智能研究院用最前沿的语音识别技术，让沟通更加自然流畅，极大解决老年人及老少边穷地区人们的信息服务无法触达的问题，为人们搭建一条通往AI时代沟通的桥梁。

用AI守护方言，让语言文化焕发生命力

　　方言是中国文化多样性的瑰宝，传承丰富的历史文化内涵；方言也是不同区域文化的灵魂，凝聚人们乡情的根源，具有丰富的人文价值。然而，很多方言却在社会经济快速发展中不断消亡，保护方言传承语言文化已迫在眉睫。

　　AI正在为传承语言文化注入全新生命力。方言语料采集、记录和归纳后，需保证能被后人正确理解。中国幅员辽阔，“百里不同俗，十里不同音”各种方言语法语音特征各不相同，传统的方言研究依赖于调查者主观感知标注，人力工程量巨大且难以系统标注。而AI能够更高效、系统地对方言进行整理归纳，对方言保护和传承意义重大。

　　构建高质量方言数据库，是方言保护和研究的基础。当前，中国电信人工智能研究院已构建超30种，超30万小时的高质量方言数据库，方言数据库在丰富性和高质量等层面均居于业内前列。

　　中国电信人工智能研究院（TeleAI）坚持自主研发创新，在中国电信CTO、人工智能研究院院长李学龙带领下，推出了星辰语音大模型，通过超大规模语音预训练和多方言联合建模，率先实现单一模型支持30种方言自由混说语音识别，是国内支持最多方言、覆盖人口最多的语音大模型；研发团队首创“蒸馏+膨胀”联合训练算法，解决超大规模多场景数据集和大规模参数条件下，预训练坍缩的问题，实现1B参数80层模型稳定训练；星辰语音大模型也是业内首个开源的基于离散语音表征的语音识别大模型，通过“从语音到token再到文本”的建模新范式，将推理时语音传输比特率降低数十倍。

　　星辰语音大模型以绝对领先的性能，斩获多个国际权威赛事冠军。在权威国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上，凭借星辰语音识别大模型的领先技术，中国电信人工智能研究院语音团队斩获语音识别赛道冠军。在业内知名的多方言语音识别数据集KeSpeech任务上，星辰语音大模型打破纪录，领先之前最优结果20%，以高达92.97%的字准确率刷新最优结果。同时在NIST（美国国家标准与技术研究院）组织的Babel低资源语音识别项目电话粤语赛道上，刷新记录取得目前业内最好结果。极佳的性能保证用户与星辰语音大模型对话，无需刻意切换普通话，也无需提高音量放慢语速，可以像和家人讲话一样自然地畅所欲言。

勇担央企使命，中国电信搭建AI时代沟通桥梁

　　随着AI技术高速发展，人们享受着智能化、无人化服务的便利。然而，老少边穷地区及很多老人，由于方言限制，正逐渐被AI时代抛弃。中国电信坚定地承担央企责任，用AI搭建沟通的桥梁，让每一个人都能享受AI时代便利。同时，中国电信有几亿用户和丰富应用场景，天然具备数据飞轮飞速转动的优势，无疑将促进技术更快进步，更好地服务每一个人。

　　据悉，星辰语音大模型已广泛应用落地。星辰语音大模型已在福建、江西、广西、北京、内蒙等地的中国电信万号智能客服试点应用，接入星辰大模型以后，万号智能客服秒懂30种方言，自然流畅地服务用户，实现日均处理约200万通电话；智能客服翼声平台接入星辰大模型的语音理解和分析能力，实现31省全覆盖，每天处理125万通客服电话。此外，星辰语音大模型还落地多地市的12345平台，赋能客服人员秒懂30种方言，更自然流畅理解更多市民需求，提升沟通效率，助力政务工作智能化升级，更高效、便捷地为每一位市民提供服务。

　　在中国国际大数据产业博览会上，星辰语音大模型让数字人“能听会说”，数字人“数数”，声音甜美生动、与康辉同台主持，中英文随意切换的，交流对话自然流畅，广受好评。

　　星辰语音大模型现已对外开源，携手合作伙伴及个人开发者，开发面向更多场景的应用，共同守护方言、传承语言文化，助力AI普惠。未来，中国电信人工智能研究院将持续深耕研发创新，不断提高支持方言的数量和准确度，计划建成首个覆盖全国333个地市方言和主要少数民族语言的语音识别大模型，切实让老少边穷、老年人等每个人都能享受到AI时代的便利。