LLM-as-judge

LLM-as-judge

概述

LLM-as-judge是一种评估方法论，使用一个LLM来评估另一个LLM的输出质量。这种方法在AI系统五层架构中被推荐用于搭建评估管道。

核心原则

你无法改进你无法衡量的东西
在部署任何AI系统之前，先定义评估指标，搭建测试框架
用LLM来评判LLM的输出效果出奇地好

关键条件

评估Prompt必须设计得当
评估模型需要具备足够的判断能力
需要定义清晰的评估标准

应用场景

评估RAG系统的检索质量
评估模型输出的准确性和相关性
评估Agent工作流的执行效果

建议

先建评估管道，再建产品。这是给技术决策者的第一条建议。