人类反馈强化学习
人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)是让AI变安全、变聪明的关键对齐技术。
过程
- 让人类评价模型生成的多个答案
- 建立一个"奖励模型"来模拟人类的偏好
- 使用强化学习优化LLM,使其符合人类价值观
目标
让模型不仅提供正确的回答,更要符合人类的价值观(如有用性、诚实性、无害性),避免生成歧视或危险的内容。
意义
RLHF是LLM"炼金术"的第三步,与[[预训练]]和[[指令微调]]共同构成了完整的训练流程。它使得LLM从纯粹的能力模型转变为安全、可控的助手。