指令微调

指令微调

指令微调（Instruction Tuning）是大语言模型训练流程中的关键步骤。预训练后的模型更像是一个博学但无法交流的"书呆子"。指令微调通过几万条高质量的人类对话实例，教导模型如何以"助手"的身份响应人类需求。

作用

指令微调使得模型能够将预训练中习得的知识转化为实际的任务执行能力。这是将预训练知识转化为[[指令遵循]]能力的关键步骤。

与[[人类反馈强化学习]]的关系

指令微调是RLHF的前置步骤，两者共同构成了LLM的对齐训练流程。