LLM（大语言模型）

LLM（大语言模型）

定义

大语言模型（Large Language Model）是基于 Transformer 架构、通过大规模预训练获得语言理解和生成能力的深度学习模型。其核心工作原理是"文字接龙引擎"——基于输入文本预测下一个最可能的 Token。

核心特性

底层架构：基于 Transformer 架构（2017 年 Google 团队提出）
工作原理：文字接龙引擎，逐 Token 预测生成
无持久记忆：每次请求独立计算，"记忆"通过 Context 模拟
统计本质：智能源于对海量文本统计规律的学习

主流模型

ChatGPT（OpenAI）
Claude（Anthropic）
Gemini（Google）

技术栈中的位置

LLM 是整个 AI 技术栈的起点和基础引擎，上层依次构建了：

Token 和 Context：信息处理边界
Prompt：行为方向盘
Tool 和 MCP：现实世界接口
Agent：规划与执行能力
Agent Skill：业务场景适配

相关概念

[[Transformer]]：LLM 的底层架构
[[文字接龙引擎]]：对 LLM 工作原理的通俗比喻
[[Tokenizer]]：连接人类语言和模型数字世界的翻译层
[[Token]]：模型的底层计量单位
[[Context-Window]]：模型的短时记忆容量上限
[[RAG]]：解决知识注入和成本问题的工程方案
[[Prompt-Engineering]]：控制模型输出方向的方法
[[Tool]]：让模型接触现实世界的外部函数
[[MCP]]：统一模型与工具交互的协议
[[Agent]]：具备规划和执行能力的智能体
[[Agent-Skill]]：让 Agent 理解特定业务工作流的操作说明书