AGI-Eval评测社区

是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

大模型评测开发者社区

访问官网

官网agi-eval.cn

地区中国

类型网站

浏览次数6

官网点击1

产品介绍

AGI-Eval（https://agi-eval.cn/）是由上海交通大学、同济大学、华东师范大学联合DataWhale等产学研力量共同发起的开放型大模型能力评估平台。其核心目标是构建一个兼具科学性、可复现性与广泛共识的智能模型评测体系，践行“以评促用、以评促进”的理念，助力人工智能技术更稳健、更可靠地融入人类社会实际需求。

平台聚焦于基础大模型在真实认知任务中的泛化表现，涵盖逻辑推演、知识调用、多步计算、语义理解、跨语言处理等关键能力维度，突破传统单一指标局限，强调模型在类人问题解决场景下的综合素养。

权威动态榜单：基于统一评测框架持续发布主流大语言模型能力排行榜，不仅呈现整体得分，还细粒度拆解至推理、知识整合、数学运算、指令遵循等十余项子能力，所有数据来源公开、过程可追溯、结果周期性更新，为技术选型与算法迭代提供客观依据。

人机协同实践场：定期组织开放式人机协作挑战赛，鼓励用户与模型共同完成高复杂度现实任务（如政策分析、教育辅导、创意生成等），系统记录协同效率增益与分工边界，沉淀可复用的协同范式，加速人机共智标准探索。

多元评测集生态：集成三类高质量评测资源——开源学术基准（如MMLU、C-Eval）、平台自研覆盖法律、教育、医疗等垂直领域的专业化测试集，以及支持社区共建的私有评测集托管服务；兼容自动评分与专家人工评审双轨机制，兼顾效率与深度。

Data Studio 数据工坊：依托超3万名活跃标注者构成的众包网络，支持结构化采集、语义扩写、对抗样本构造、Arena式成对比较等多种数据生产模式；通过AI初筛+领域专家复核的双重质控流程，保障输入数据的真实性、多样性与任务相关性。

全栈评估支持能力：提供标准化评测流程、基线模型参考结果、可插拔评估脚本及详细方法论文档，全面适配NLP模型研发各阶段需求；特别强化中英文双语任务覆盖，支撑全球化部署场景下的语言适应性优化。

科研友好型基础设施：面向高校与研究机构，开放评测工具链与实验环境，支持新算法快速验证；面向工业界开发者，提供轻量接入接口与定制化评估报告，显著缩短模型调优闭环周期。

区别于常规考试型评测，AGI-Eval 的任务设计深度对标人类高阶认知活动——从高考真题到司法判例分析，从奥数题解到跨学科论证，真实映射模型在不确定性环境中的判断力、解释力与迁移力。凭借透明的方法论、活跃的共建机制与多维交叉的评估视角，该平台已成为国内AI模型能力验证与技术演进的重要基础设施之一。

AGI-Eval评测社区

产品介绍

同类工具推荐