
产品介绍
AGI-Eval(https://agi-eval.cn/)是由上海交通大学、同济大学、华东师范大学联合DataWhale等产学研力量共同发起的开放型大模型能力评估平台。其核心目标是构建一个兼具科学性、可复现性与广泛共识的智能模型评测体系,践行“以评促用、以评促进”的理念,助力人工智能技术更稳健、更可靠地融入人类社会实际需求。
平台聚焦于基础大模型在真实认知任务中的泛化表现,涵盖逻辑推演、知识调用、多步计算、语义理解、跨语言处理等关键能力维度,突破传统单一指标局限,强调模型在类人问题解决场景下的综合素养。
权威动态榜单:基于统一评测框架持续发布主流大语言模型能力排行榜,不仅呈现整体得分,还细粒度拆解至推理、知识整合、数学运算、指令遵循等十余项子能力,所有数据来源公开、过程可追溯、结果周期性更新,为技术选型与算法迭代提供客观依据。
人机协同实践场:定期组织开放式人机协作挑战赛,鼓励用户与模型共同完成高复杂度现实任务(如政策分析、教育辅导、创意生成等),系统记录协同效率增益与分工边界,沉淀可复用的协同范式,加速人机共智标准探索。
多元评测集生态:集成三类高质量评测资源——开源学术基准(如MMLU、C-Eval)、平台自研覆盖法律、教育、医疗等垂直领域的专业化测试集,以及支持社区共建的私有评测集托管服务;兼容自动评分与专家人工评审双轨机制,兼顾效率与深度。
Data Studio 数据工坊:依托超3万名活跃标注者构成的众包网络,支持结构化采集、语义扩写、对抗样本构造、Arena式成对比较等多种数据生产模式;通过AI初筛+领域专家复核的双重质控流程,保障输入数据的真实性、多样性与任务相关性。
全栈评估支持能力:提供标准化评测流程、基线模型参考结果、可插拔评估脚本及详细方法论文档,全面适配NLP模型研发各阶段需求;特别强化中英文双语任务覆盖,支撑全球化部署场景下的语言适应性优化。
科研友好型基础设施:面向高校与研究机构,开放评测工具链与实验环境,支持新算法快速验证;面向工业界开发者,提供轻量接入接口与定制化评估报告,显著缩短模型调优闭环周期。
区别于常规考试型评测,AGI-Eval 的任务设计深度对标人类高阶认知活动——从高考真题到司法判例分析,从奥数题解到跨学科论证,真实映射模型在不确定性环境中的判断力、解释力与迁移力。凭借透明的方法论、活跃的共建机制与多维交叉的评估视角,该平台已成为国内AI模型能力验证与技术演进的重要基础设施之一。






