LLMEval是复旦大学NLP实验室开发的一个大型模型评估基准,最新版的LLMEval-3专注于评估模型在专业知识领域的能力。这一版本涵盖了包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等13个学科门类,涉及50多个二级学科,总计约20万个标准生成问答题目。
本文转载自互联网,如有侵权,联系 478266466@qq.com 删除。