预训练
预训练(Pre-training)是大语言模型训练流程中最耗时耗力的阶段。模型通过阅读万亿级的词元([[Token]])来构建其世界观。
数据来源
- 经过严格清洗的网页(如CommonCrawl)
- 精选的书籍
- 高质量的学术论文(arXiv)
- 逻辑极其严密的计算机代码(GitHub)
学习目标
绝大多数LLM采用的是"自回归"架构,目标只有一句话:给定上文,预测下一个词。为了把预测准确率提升到极致,模型被迫在内部模拟出逻辑推理、常识理解和语法结构。
与后续阶段的关系
预训练是LLM"炼金术"的第一步,后续的[[指令微调]]和[[人类反馈强化学习]]在此基础上进行性格重塑和价值观对齐。