AlpacaEval : 一个用于自动评估大语言模型的工具 ?AlpacaEval 可以测试和评估语言模型在理解和执行自然语言指令方面的能力,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠