LLM-as-judge
概述
LLM-as-judge是一种评估方法论,使用一个LLM来评估另一个LLM的输出质量。这种方法在AI系统五层架构中被推荐用于搭建评估管道。
核心原则
- 你无法改进你无法衡量的东西
- 在部署任何AI系统之前,先定义评估指标,搭建测试框架
- 用LLM来评判LLM的输出效果出奇地好
关键条件
- 评估Prompt必须设计得当
- 评估模型需要具备足够的判断能力
- 需要定义清晰的评估标准
应用场景
- 评估RAG系统的检索质量
- 评估模型输出的准确性和相关性
- 评估Agent工作流的执行效果
建议
先建评估管道,再建产品。这是给技术决策者的第一条建议。