人类反馈强化学习

人类反馈强化学习

人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）是让AI变安全、变聪明的关键对齐技术。

过程

让人类评价模型生成的多个答案
建立一个"奖励模型"来模拟人类的偏好
使用强化学习优化LLM，使其符合人类价值观

目标

让模型不仅提供正确的回答，更要符合人类的价值观（如有用性、诚实性、无害性），避免生成歧视或危险的内容。

意义

RLHF是LLM"炼金术"的第三步，与[[预训练]]和[[指令微调]]共同构成了完整的训练流程。它使得LLM从纯粹的能力模型转变为安全、可控的助手。