LLM(大语言模型)
定义
大语言模型(Large Language Model)是基于 Transformer 架构、通过大规模预训练获得语言理解和生成能力的深度学习模型。其核心工作原理是"文字接龙引擎"——基于输入文本预测下一个最可能的 Token。
核心特性
- 底层架构:基于 Transformer 架构(2017 年 Google 团队提出)
- 工作原理:文字接龙引擎,逐 Token 预测生成
- 无持久记忆:每次请求独立计算,"记忆"通过 Context 模拟
- 统计本质:智能源于对海量文本统计规律的学习
主流模型
- ChatGPT(OpenAI)
- Claude(Anthropic)
- Gemini(Google)
技术栈中的位置
LLM 是整个 AI 技术栈的起点和基础引擎,上层依次构建了:
- Token 和 Context:信息处理边界
- Prompt:行为方向盘
- Tool 和 MCP:现实世界接口
- Agent:规划与执行能力
- Agent Skill:业务场景适配
相关概念
- [[Transformer]]:LLM 的底层架构
- [[文字接龙引擎]]:对 LLM 工作原理的通俗比喻
- [[Tokenizer]]:连接人类语言和模型数字世界的翻译层
- [[Token]]:模型的底层计量单位
- [[Context-Window]]:模型的短时记忆容量上限
- [[RAG]]:解决知识注入和成本问题的工程方案
- [[Prompt-Engineering]]:控制模型输出方向的方法
- [[Tool]]:让模型接触现实世界的外部函数
- [[MCP]]:统一模型与工具交互的协议
- [[Agent]]:具备规划和执行能力的智能体
- [[Agent-Skill]]:让 Agent 理解特定业务工作流的操作说明书