MChat应用
AI工具
HELM(Holistic Evaluation of Language Models,语言模型整体评估)是斯坦福大学开发的一个大型语言模型评估框架。该评估体系主要分为场景、适配和指标三个关键模块,每次评测时,必须选择一个特定场景,提供一个适应该场景的模型提示,并确定一个或多个评估指标。HELM的评估主要集中在英语语言上,涵盖7项指标,分别为准确性、不确定性/校准、鲁棒性、公平性、偏见、毒性以及推理效率。此外,HELM的测试任务包括问答、信息检索、摘要生成和文本分类等。
本文转载自互联网,如有侵权,联系 478266466@qq.com 删除。