FlagEval(天秤)是由智源研究院联合多个高校团队共同开发的,采用了“能力—任务—指标”三维评估框架的大规模模型评测平台。该平台的目标是提供全面且细致的评估结果。目前,平台已涵盖了超过30种能力、5种任务类型以及4大类指标,提供了超过600个维度的全面评测。任务维度方面,平台包括22个主客观评测数据集和共计84433道题目。
本文转载自互联网,如有侵权,联系 478266466@qq.com 删除。