AI 模型平台模型评测

SuperCLUE

针对中文可用的通用大模型的一个测评基准

注意:若目标网站涉及付费等信息请自行甄别,切勿上当受骗!

SuperCLUE官网介绍

SuperCLUE是一个中文通用大模型综合性测评基准网站,主要针对中文可用的通用大模型进行测评。它旨在回答当前通用大模型大力发展情况下,中文大模型的效果情况,包括模型相对效果、与国际代表性模型的对比以及与人类效果的对比等问题。该网站是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展,目前包括OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准这三大基准,并且按照月度进行更新。

SuperCLUE官网地址

官网地址为https://www.cluebenchmarks.com/static/superclue.html,用户可通过该地址访问网站,获取最新的大模型测评榜单、报告以及相关技术信息。

网址预览

SuperCLUE主要功能

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。

目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新~

测评基准:拥有三大基准,分别是OPEN多轮开放式基准,从用户视角、开放域对模型进行测评;OPT三大能力客观题基准,针对客观、封闭域的基础能力进行测评;琅琊榜匿名对战基准,可进行匿名模型对战,采用Elo评分,实现完全自动化测评。

能力测评:涵盖十大基础能力结构,包括语言理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演、安全等,每个能力都有具体的示例和测评方式。

榜单与报告:提供最新榜单,用户可查看不同模型的测评结果;还有大模型报告,如《中文大模型基准测评2025年03月报告》,以及技术报告,详细介绍测评基准的技术内容。

Github项目:提供Github项目地址,方便用户获取更多项目相关的代码和资料。

SuperCLUE使用场景

模型研发:模型研发人员可利用该网站的测评基准和能力测评方式,对研发的中文大模型进行全面测评,了解模型的优势和不足,以便进行优化和改进。

学术研究:科研人员可通过网站的测评结果和报告,开展中文大模型相关的学术研究,分析中文大模型的发展现状和趋势。

模型选择:企业或个人在选择中文大模型时,可参考网站的榜单和测评报告,选择适合自身需求的模型。

SuperCLUE适用人群

模型研发人员:需要对中文大模型进行测评和优化的人员。

科研人员:从事中文大模型相关学术研究的人员。

企业相关人员:负责为企业选择合适中文大模型的人员。

对大模型感兴趣的人群:包括学生、技术爱好者等。

数据统计

相关导航

暂无评论

暂无评论...