LLM(大语言模型)

LLM(大语言模型)

LLM(大语言模型)

定义

大语言模型(Large Language Model)是基于 Transformer 架构、通过大规模预训练获得语言理解和生成能力的深度学习模型。其核心工作原理是"文字接龙引擎"——基于输入文本预测下一个最可能的 Token。

核心特性

  • 底层架构:基于 Transformer 架构(2017 年 Google 团队提出)
  • 工作原理:文字接龙引擎,逐 Token 预测生成
  • 无持久记忆:每次请求独立计算,"记忆"通过 Context 模拟
  • 统计本质:智能源于对海量文本统计规律的学习

主流模型

  • ChatGPT(OpenAI)
  • Claude(Anthropic)
  • Gemini(Google)

技术栈中的位置

LLM 是整个 AI 技术栈的起点和基础引擎,上层依次构建了:

  1. Token 和 Context:信息处理边界
  2. Prompt:行为方向盘
  3. Tool 和 MCP:现实世界接口
  4. Agent:规划与执行能力
  5. Agent Skill:业务场景适配

相关概念

  • [[Transformer]]:LLM 的底层架构
  • [[文字接龙引擎]]:对 LLM 工作原理的通俗比喻
  • [[Tokenizer]]:连接人类语言和模型数字世界的翻译层
  • [[Token]]:模型的底层计量单位
  • [[Context-Window]]:模型的短时记忆容量上限
  • [[RAG]]:解决知识注入和成本问题的工程方案
  • [[Prompt-Engineering]]:控制模型输出方向的方法
  • [[Tool]]:让模型接触现实世界的外部函数
  • [[MCP]]:统一模型与工具交互的协议
  • [[Agent]]:具备规划和执行能力的智能体
  • [[Agent-Skill]]:让 Agent 理解特定业务工作流的操作说明书
分享到