国内首个大模型评测数据集（MMCU）发布可提升大语言模型中文理解能力

【网易科技5月22日报道】近日，以”大模型实际应用与场景化落地”为主题的研讨沙龙和产品发布会在甲骨易第三空间举行。发布会现场，甲骨易AI研究院推出了一款名为”超越”（Massive Multitask Chinese Understanding，简称MMCU）的高质量中文评测数据集。据介绍，该数据集是一项大规模的多任务测试数据集，填补了中文大语言模型能力测试的空白。

据了解，”超越”MMCU数据集的推出是为了更好地评估大语言模型对中文的理解能力，并帮助提升中文大语言模型的技术水平。目前，国内的大语言模型与国际水平仍有差距，而”超越”MMCU数据集的推出旨在帮助发现模型的缺陷并评价其能力。

发布会现场，产业界代表们强调，由于对大型语言模型的评估存在局限性和不足，导致了对各大厂商之间的差异性缺乏全面的了解，并且限制了国内大型模型和人工智能产业的发展。因此，需要找到大型模型的缺陷并更好地理解包括中文在内的人类语言文本。在评估中文大语言模型方面，国外在英文大语言模型上已经有一些较为完善的评测方式，但对于中文大语言模型的评测仍然存在空白。

会上指出，数据量和数据分布对于训练模型的配比方式非常重要，但是目前的数据集中，中文语料的比例较低，这导致中文模型的理解能力不足。为了提升中文能力，国内的研究机构和人工智能企业正在增补中文语料。与此同时，对中文大语言模型进行客观公正的评价非常重要，以使其变得更加强大。目前国内厂商仍然处于模仿和跟随的阶段，虽然未来有望超越国际水平，但目前没有经过实践验证。

据悉，”超越”MMCU数据集的推出正好满足了这一需求，可以通过综合评估模型在多个学科上的知识广度和深度，帮助研究人员找出模型的缺陷，并对模型的能力进行评分。通过这样的评价方法，可以更好地了解不同厂商之间的大模型技术能力的差异。(江淼)