排行榜 - 摸鱼杂货店

AlpacaEval ：一个用于自动评估大语言模型的工具

?AlpacaEval 可以测试和评估语言模型在理解和执行自然语言指令方面的能力，它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠