大模型
共 94 个工具
AI Ping
中国网站
专注AI大模型服务性能评测的平台

arize.com
加拿大网站
是一个领先的 AI 可观测性平台

AGI-Eval评测社区
中国网站
是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

Anyscale
美国网站
专注于运行和扩展机器学习(ML)与人工智能(AI)工作负载

C-Eval 排行榜
中国网站
主要用于展示不同大语言模型(LLMs)在多层次、多学科中文任务中的综合能力排名。
MMLU
美国网站
MMLU 是一个广泛使用的基准,测试模型在多个学科和任务上的语言理解能力,涵盖高中、大学和专业水平的知识。

Ai-Ceping
中国网站
领先的大模型评测平台

OpenCompass司南 - 评测榜单
中国网站
OpenCompass 平台的 LLM(大语言模型)排行榜页面,由 OpenCompass 社区维护。

HELM
美国网站
斯坦福大学推出的大模型评测体系

MMBench
中国网站
MMBench 的官方排行榜页面,由 OpenCompass 社区维护。
Open LLM Leaderboard
中国网站
由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。
