预训练

预训练

预训练

预训练(Pre-training)是大语言模型训练流程中最耗时耗力的阶段。模型通过阅读万亿级的词元([[Token]])来构建其世界观。

数据来源

  • 经过严格清洗的网页(如CommonCrawl)
  • 精选的书籍
  • 高质量的学术论文(arXiv)
  • 逻辑极其严密的计算机代码(GitHub)

学习目标

绝大多数LLM采用的是"自回归"架构,目标只有一句话:给定上文,预测下一个词。为了把预测准确率提升到极致,模型被迫在内部模拟出逻辑推理、常识理解和语法结构。

与后续阶段的关系

预训练是LLM"炼金术"的第一步,后续的[[指令微调]]和[[人类反馈强化学习]]在此基础上进行性格重塑和价值观对齐。

分享到