FlagEval官网介绍
FlagEval(天秤)大模型评测平台,是一个旨在建立科学、公正、开放的评测基准、方法、工具集的网站。它能协助研究人员全方位评估基础模型及训练算法的性能,还通过引入AI辅助主观评测,大幅提升了评测的效率和客观性。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,后续将全面覆盖基础模型、预训练算法、微调/压缩算法等三大评测对象,以及自然语言处理、计算机视觉、音频及多模态等四大评测场景和丰富的下游任务。
FlagEval官网地址
官网地址为https://flageval.baai.ac.cn/,用户可通过该地址访问平台,了解大模型评测的相关信息和工具。
网址预览
FlagEval主要功能
大语言模型评测:评测大语言模型不同类型的能力,包括简单理解、数学能力、代码能力、知识运用、推理能力、任务解决、指令遵循、安全与价值观等,除自建数据集外,还选用若干尚未饱和的公开数据集进行评测。
多模态大模型评测:考察模型在处理图文分类、图文匹配、图文生成等任务中的多维度性能表现,包括视觉语言模型、文生图、文生视频等方面的评测。
计算机视觉评测:当前仅支持Backbone基础模型的适配评测,在深度估计、图像分类、图像检索、语义分割、半监督图像分类、小样本图像分类等多个任务上以不同的微调方式进行评测。
语音语言大模型评测:评估语音基础模型的能力,覆盖语音感知能力、音频感知能力、语音生成能力、口语理解能力等10类任务,17个数据集,总计超过12万条语音数据。
评测流程:包含Corpus(公开数据集和自建数据集)、Pre-train Model、Fine-turned Model、Inference Service、Monitor、Other Application,通过Auto Evaluation和Human Evaluation进行评测,最后Check并生成Leaderboard。
FlagEval使用场景
模型研发:研发人员可利用平台的评测工具和基准,对研发的大模型进行全面评估,了解模型在不同任务和场景下的性能表现,以便优化模型。
学术研究:科研人员可借助平台的评测数据和方法,开展大模型相关的学术研究,推动大模型技术的发展。
产业应用:企业在将大模型应用于实际场景时,可通过平台的评测,选择适合自身需求的模型,确保模型在实际应用中的效果。
FlagEval适用人群
模型研发人员:需要对大模型进行评估和优化的人员。
科研人员:从事大模型相关学术研究的人员。
企业相关人员:负责大模型在产业应用中选型和评估的人员。
评测研究团体:专注于大模型评测研究的团体和机构。