大模型

共 94 个工具

全部产品94 DeepSeek20 大语言模型8 AI模型托管7 开源大模型9 国产大模型12 教育大模型4 多模态大模型8 语音大模型3 视频大模型2 大模型评测11 绘画大模型10

专注AI大模型服务性能评测的平台

加拿大网站

是一个领先的 AI 可观测性平台

AGI-Eval评测社区

是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

专注于运行和扩展机器学习（ML）与人工智能（AI）工作负载

C-Eval 排行榜

主要用于展示不同大语言模型（LLMs）在多层次、多学科中文任务中的综合能力排名。

MMLU 是一个广泛使用的基准，测试模型在多个学科和任务上的语言理解能力，涵盖高中、大学和专业水平的知识。

领先的大模型评测平台

OpenCompass司南 - 评测榜单

OpenCompass 平台的 LLM（大语言模型）排行榜页面，由 OpenCompass 社区维护。

斯坦福大学推出的大模型评测体系

MMBench 的官方排行榜页面，由 OpenCompass 社区维护。

Open LLM Leaderboard

由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型（LLMs）和聊天机器人，为用户提供一个透明、可比较的平台，以了解不同模型的性能表现。