从词语预测到通用智能:大语言模型(LLM)的全景拆解

从词语预测到通用智能:大语言模型(LLM)的全景拆解

从词语预测到通用智能:大语言模型(LLM)的全景拆解

本文是一篇关于大语言模型(LLM)的科普综述,系统梳理了LLM从统计语言模型到通用智能体的四代演进历史,深入剖析了其核心奥秘——涌现能力,详细拆解了预训练、指令微调和RLHF三阶段训练流程,并探讨了长文本建模、RAG、智能体和多模态融合等前沿进化方向。文章指出,LLM的"智能"并非魔法,而是近30年计算语言学技术积累的"量变产生质变",其核心在于规模扩大后涌现出的上下文学习、指令遵循和思维链等能力。同时,文章也坦诚指出了幻觉问题、知识更新慢和巨大能耗等严峻挑战。

核心论点

  • LLM的智能源于规模扩大后的涌现能力,这是其与前代模型最本质的区别
  • 预训练-指令微调-RLHF三阶段训练流程是LLM的"炼金术"
  • 幻觉问题和RAG是LLM应用中的关键挑战和解决方案
  • LLM正在从文字生成器进化为能自主执行任务的智能体

关键概念

  • [[涌现能力]]:当模型参数突破百亿/千亿临界点时突然爆发的能力
  • [[上下文学习]]:通过Prompt中的例子即可学会新任务,无需修改参数
  • [[指令遵循]]:经过对齐训练后,模型能理解并执行自然语言指令
  • [[思维链]]:通过"让我们一步步思考"引导模型生成中间推理步骤
  • [[预训练]]:模型通过阅读万亿级词元来构建世界观的基础阶段
  • [[指令微调]]:使用高质量人类对话实例教导模型以"助手"身份响应
  • [[人类反馈强化学习]]:通过人类评价优化模型,使其符合人类价值观
  • [[幻觉问题]]:LLM以自信语气编造不存在事实的现象
  • [[检索增强生成]]:允许模型在回答前搜索实时互联网或私有知识库
  • [[智能体]]:LLM进化为能自主规划、调用外部工具、解决复杂问题的实体
  • [[多模态大语言模型]]:能同时理解文字、图片、音频和视频的模型

里程碑模型

  • [[GPT-3]]:2020年发布,标志着LLM时代转折点的模型
  • [[ChatGPT]]:2022年底发布,标志着"大模型时代"开始的标志性产品
  • [[BERT]]:2018年发布,预训练语言模型时代的代表

参考资料

  • Zhao, W. X., et al. “A Survey of Large Language Models” (v18, 2026)
  • 高瓴人工智能学院团队的研究
分享到