开放LLM排行榜

2024-12-26 15:19:33 6

Open LLM Leaderboard 是由全球领先的大模型与数据集社区 HuggingFace 推出的开源大型语言模型排行榜。该排行榜基于 Eleuther AI 提供的语言模型评估框架进行封装与实现。

随着社区发布了多个大型语言模型(LLM)和聊天机器人,许多模型的性能常被过度夸大,导致很难辨别哪些是开源领域中的真正突破与最前沿的技术。为了帮助用户更好地识别这些进展,Hugging Face 引入了 Eleuther AI 语言模型评估框架,进行四个关键的基准测试。这些基准为测试生成式语言模型提供了统一的评估平台,覆盖了多种不同的任务。

Open LLM Leaderboard 的评估标准

  • AI2 推理挑战(25-shot):一组基于小学科学知识的问题。
  • HellaSwag(10-shot):该任务考察模型的常识推理能力,虽然人类能轻松完成(准确率约为95%),但对现有最先进的模型来说,仍具挑战性。
  • MMLU(5-shot):用于评估文本模型在多任务上的表现,测试内容涵盖了包括数学、美国历史、计算机科学、法律等在内的57个不同任务。
  • TruthfulQA(0-shot):该基准测试评估模型是否容易传播网络上的常见虚假信息。

本文转载自互联网,如有侵权,联系 478266466@qq.com 删除。

相关推荐

稳定音频

稳定音频

AI工具
极速写作

极速写作

AI工具
彩云梦语

彩云梦语

AI工具
Lamini

Lamini

AI工具
象形文字

象形文字

AI工具