AI 模型平台常用平台模型评测

C-Eval

一个全面的中文基础模型评估平台

注意:若目标网站涉及付费等信息请自行甄别,切勿上当受骗!

C-Eval官网介绍

C-Eval是一个针对基础模型的综合性中文评估套件网站。其核心是为基础模型提供多级别、多学科的中文评估方案,网站上的C-Eval套件包含13948道多项选择题,覆盖52个不同学科和四个难度级别。这些题目旨在全面评估基础模型在中文语境下的知识掌握和推理能力,用户可以在“explore”板块探索数据集示例,也能通过相关论文了解更多详细内容。

C-Eval官网地址

官网地址为https://cevalbenchmark.com/,通过该地址访问网站,可获取C-Eval评估套件的详细介绍、数据下载方式以及相关学术引用等信息。

网址预览

C-Eval主要功能

  • 数据集展示与下载:提供C-Eval数据集的示例展示,用户可直接在Hugging Face datasets上下载数据,同时网站给出GitHub instructions,指导用户如何读取和使用这些数据。
  • 学术资源提供:发布C-Eval相关论文,如《C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models》,并提供论文的引用格式,方便学术研究引用。
  • 联系方式提供:针对用户关于C-Eval的疑问,提供邮箱ceval.benchmark@gmail.com和GitHub issue两种反馈渠道,若有合作意向,可联系junxia nh @ cse.ust.hk。

C-Eval使用场景

模型评估:研发人员可利用C-Eval的多学科、多难度级别题目,对开发的基础模型进行全面的中文能力评估,了解模型在不同学科和难度下的表现。

学术研究:科研人员可基于C-Eval的数据集和评估体系,开展基础模型相关的学术研究,分析模型在中文环境下的优势与不足。

C-Eval适用人群

模型研发人员:需要对基础模型进行中文评估以优化模型性能的人员。

学术研究人员:从事基础模型相关学术研究,需要中文评估数据集和方案的科研人员。

对中文基础模型评估感兴趣的人士:包括学生、行业从业者等,希望了解中文基础模型评估情况的人群。

数据统计

相关导航

暂无评论

暂无评论...