CHINESE GLUE

ChineseGLUE


Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard

中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。 我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

定位

为更好的服务中文语言理解、任务和产业界,做为通用语音模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展

缘由

Why do we need a benchmark for Chinese lanague understand evaluation?

首先,中文是一个大语种,有其自身的特定、大量的应用。如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。 中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。

其次,相对于英文的数据集,中文的公开可用的数据集还比较少。很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。

再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试, 导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

那么,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展,能缓解当前中文任务的一些问题,并促进相关应用的发展。

阅读 {{config.read_count}}
<