人类反馈强化学习

人类反馈强化学习

人类反馈强化学习

人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)是让AI变安全、变聪明的关键对齐技术。

过程

  1. 让人类评价模型生成的多个答案
  2. 建立一个"奖励模型"来模拟人类的偏好
  3. 使用强化学习优化LLM,使其符合人类价值观

目标

让模型不仅提供正确的回答,更要符合人类的价值观(如有用性、诚实性、无害性),避免生成歧视或危险的内容。

意义

RLHF是LLM"炼金术"的第三步,与[[预训练]]和[[指令微调]]共同构成了完整的训练流程。它使得LLM从纯粹的能力模型转变为安全、可控的助手。

分享到