本排行榜是基于SC-Safety:一个面向中文大型语言模型的多轮开放式问题对抗安全性测试,所排行出来的!
说明
大型语言模型(LLM),如ChatGPT和GPT-4,在自然语言理解和生成方面表现出了卓越的能力。然而,除了对我们的日常工作产生积极影响外,它们也会产生有害的内容,对社会观念产生负面影响。为了系统地评估中国LLM的安全性,我们引入了SuperCLUE-Safety(SC-Safety)-一个多轮对抗性基准,包含4912个开放式问题,涵盖20多个安全子维度。与现有方法相比,对抗性的人类模型交互和对话显著增加了挑战。在支持中国的13个主要LLM上进行的实验产生了以下见解:1)在安全性方面,闭源模型优于开源模型; 2)中国发布的模型显示出与GPT-3.5-turbo等LLM相当的安全水平; 3)一些具有6 B-13 B参数的较小模型可以在安全性方面有效竞争。通过引入SC-Safety,我们的目标是促进合作,创造更安全,更值得信赖的LLM。基准和调查结果为模型选择提供了指导。
中文语言理解测评基准(CLUE)
中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年,陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。
1.内容体系:代表性的数据集、基线(预训练)模型、语料库、论文、工具包、排行榜。
2.SuperCLUE使命:精准量化AGI进展,定义人类迈向AGI路线图。
3.CLUE定位:为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文NLP的发展。
总排行榜 【2025年1月测评】
文生图总榜【2024年9月测评】
文生视频总榜【2024年11月测评】
代码生成总榜【2024年9月测评】
各大排行榜地址以及报告
© 版权声明
文章版权归羚羊公子博客所有,未经允许请勿转载。
THE END
请登录后查看评论内容