开放LLM排行榜

AI工具 2024-12-26 15:19:33 181

Open LLM Leaderboard 是由全球领先的大模型与数据集社区 HuggingFace 推出的开源大型语言模型排行榜。该排行榜基于 Eleuther AI 提供的语言模型评估框架进行封装与实现。

随着社区发布了多个大型语言模型（LLM）和聊天机器人，许多模型的性能常被过度夸大，导致很难辨别哪些是开源领域中的真正突破与最前沿的技术。为了帮助用户更好地识别这些进展，Hugging Face 引入了 Eleuther AI 语言模型评估框架，进行四个关键的基准测试。这些基准为测试生成式语言模型提供了统一的评估平台，覆盖了多种不同的任务。

Open LLM Leaderboard 的评估标准

AI2 推理挑战（25-shot）：一组基于小学科学知识的问题。
HellaSwag（10-shot）：该任务考察模型的常识推理能力，虽然人类能轻松完成（准确率约为95%），但对现有最先进的模型来说，仍具挑战性。
MMLU（5-shot）：用于评估文本模型在多任务上的表现，测试内容涵盖了包括数学、美国历史、计算机科学、法律等在内的57个不同任务。
TruthfulQA（0-shot）：该基准测试评估模型是否容易传播网络上的常见虚假信息。

AI工具

本文转载自互联网，如有侵权，联系 478266466@qq.com 删除。

开放LLM排行榜

AI工具 2024-12-26 15:19:33 181

Open LLM Leaderboard 的评估标准

相关推荐

MChat应用

HELM（层次化环境建模）

百度翻译工具

aiXcoder：智能编程助手

CopyLeaks检测

比格AI演示文稿

最近发表