中文通用大模型综合性基准排行榜-羚羊公子博客

本排行榜是基于SC-Safety：一个面向中文大型语言模型的多轮开放式问题对抗安全性测试，所排行出来的！

说明

大型语言模型（LLM），如ChatGPT和GPT-4，在自然语言理解和生成方面表现出了卓越的能力。然而，除了对我们的日常工作产生积极影响外，它们也会产生有害的内容，对社会观念产生负面影响。为了系统地评估中国LLM的安全性，我们引入了SuperCLUE-Safety（SC-Safety）-一个多轮对抗性基准，包含4912个开放式问题，涵盖20多个安全子维度。与现有方法相比，对抗性的人类模型交互和对话显著增加了挑战。在支持中国的13个主要LLM上进行的实验产生了以下见解：1）在安全性方面，闭源模型优于开源模型; 2）中国发布的模型显示出与GPT-3.5-turbo等LLM相当的安全水平; 3）一些具有6 B-13 B参数的较小模型可以在安全性方面有效竞争。通过引入SC-Safety，我们的目标是促进合作，创造更安全，更值得信赖的LLM。基准和调查结果为模型选择提供了指导。

中文语言理解测评基准(CLUE)

中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准，发起于2019年，陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。

1.内容体系：代表性的数据集、基线(预训练)模型、语料库、论文、工具包、排行榜。
2.SuperCLUE使命：精准量化AGI进展，定义人类迈向AGI路线图。
3.CLUE定位：为更好的服务中文语言理解、任务和产业界，做为通用语言模型测评的补充，通过搜集整理发布中文任务及标准化测评等方式完善基础设施，最终促进中文NLP的发展。