中文通用大模型综合性基准排行榜

本排行榜是基于SC-Safety:一个面向中文大型语言模型的多轮开放式问题对抗安全性测试,所排行出来的!

图片[1]-中文通用大模型综合性基准排行榜-羚羊公子博客

说明

大型语言模型(LLM),如ChatGPT和GPT-4,在自然语言理解和生成方面表现出了卓越的能力。然而,除了对我们的日常工作产生积极影响外,它们也会产生有害的内容,对社会观念产生负面影响。为了系统地评估中国LLM的安全性,我们引入了SuperCLUE-Safety(SC-Safety)-一个多轮对抗性基准,包含4912个开放式问题,涵盖20多个安全子维度。与现有方法相比,对抗性的人类模型交互和对话显著增加了挑战。在支持中国的13个主要LLM上进行的实验产生了以下见解:1)在安全性方面,闭源模型优于开源模型; 2)中国发布的模型显示出与GPT-3.5-turbo等LLM相当的安全水平; 3)一些具有6 B-13 B参数的较小模型可以在安全性方面有效竞争。通过引入SC-Safety,我们的目标是促进合作,创造更安全,更值得信赖的LLM。基准和调查结果为模型选择提供了指导。

图片[2]-中文通用大模型综合性基准排行榜-羚羊公子博客

中文语言理解测评基准(CLUE)

中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年,陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。

1.内容体系:代表性的数据集、基线(预训练)模型、语料库、论文、工具包、排行榜。
2.SuperCLUE使命:精准量化AGI进展,定义人类迈向AGI路线图。
3.CLUE定位:为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文NLP的发展。

图片[3]-中文通用大模型综合性基准排行榜-羚羊公子博客

总排行榜 【2025年1月测评】

图片[4]-中文通用大模型综合性基准排行榜-羚羊公子博客

文生图总榜【2024年9月测评】

图片[5]-中文通用大模型综合性基准排行榜-羚羊公子博客

文生视频总榜【2024年11月测评】

图片[6]-中文通用大模型综合性基准排行榜-羚羊公子博客

代码生成总榜【2024年9月测评】

图片[7]-中文通用大模型综合性基准排行榜-羚羊公子博客

各大排行榜地址以及报告

中文通用大模型综合性基准排行榜-羚羊公子博客
各大排行榜地址以及报告
此内容为付费阅读,请付费后查看
5
限时特惠
19.99
立即购买
您当前未登录!建议登陆后购买,可保存购买订单
付费阅读
© 版权声明
THE END
喜欢就给作者加个鸡腿吧!
点赞7 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容