SuperCLUE

SuperCLUE官网介绍

SuperCLUE是一个中文通用大模型综合性测评基准网站，主要针对中文可用的通用大模型进行测评。它旨在回答当前通用大模型大力发展情况下，中文大模型的效果情况，包括模型相对效果、与国际代表性模型的对比以及与人类效果的对比等问题。该网站是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展，目前包括OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准这三大基准，并且按照月度进行更新。

SuperCLUE官网地址

官网地址为https://www.cluebenchmarks.com/static/superclue.html，用户可通过该地址访问网站，获取最新的大模型测评榜单、报告以及相关技术信息。

网址预览

SuperCLUE主要功能

中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。

目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新~

测评基准：拥有三大基准，分别是OPEN多轮开放式基准，从用户视角、开放域对模型进行测评；OPT三大能力客观题基准，针对客观、封闭域的基础能力进行测评；琅琊榜匿名对战基准，可进行匿名模型对战，采用Elo评分，实现完全自动化测评。

能力测评：涵盖十大基础能力结构，包括语言理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演、安全等，每个能力都有具体的示例和测评方式。

榜单与报告：提供最新榜单，用户可查看不同模型的测评结果；还有大模型报告，如《中文大模型基准测评2025年03月报告》，以及技术报告，详细介绍测评基准的技术内容。

Github项目：提供Github项目地址，方便用户获取更多项目相关的代码和资料。