从 LLM 到 Agent Skill:一文带你打通 AI 技术的底层工程逻辑
摘要
本文从底层工程视角,系统拆解了从大语言模型(LLM)到 Agent Skill 的完整 AI 技术栈。文章以分层逻辑为主线,依次阐述了 Transformer 架构与 LLM 的"文字接龙引擎"本质、Tokenizer 与 Token 的编码解码机制、Context 与 Context Window 的短时记忆原理、RAG 检索增强生成的知识注入方案、Prompt 工程的行为控制方法、Tool 与 MCP 协议的现实世界接口、Agent 的规划与执行能力,以及 Agent Skill 的结构化操作说明书概念。文章强调,理解这套底层工程逻辑是驾驭 AI 技术、避免被营销话术误导的关键。
核心论点
AI 技术栈(从 LLM 到 Agent Skill)是一套逻辑严密的分层系统,理解其底层工程逻辑是驾驭 AI 技术的关键。每个层级解决特定的工程问题,层层递进,最终将通用模型转化为贴近业务场景的专属数字助手。
关键发现
- LLM 本质是"文字接龙引擎":其"智能"源于对下一个 Token 的预测,而非真正的理解或思考。
- Token 是底层计量单位:Token 不等于"词",是模型处理文本的最小片段,决定成本、容量和吞吐。
- 模型无持久记忆:模型的"记忆"是通过每次请求时打包历史对话作为 Context 实现的。
- RAG 是实用工程方案:通过检索+生成的方式,打破 Context Window 限制,降低 Token 成本,提高回答准确率。
- Prompt 是行为轨道:System Prompt 是后台设定的隐藏规则,决定模型的行为边界和输出风格。
- Tool 与 MCP 是现实世界接口:Tool 是封装好的外部函数或 API,MCP 是统一模型与工具交互的标准协议。
- Agent 是执行者:具备拆解任务、制定计划、循环执行工具的能力,核心是 ReAct(推理与行动循环)模式。
- Agent Skill 是关键差异化:一份写给 Agent 的结构化操作说明书,让通用 Agent 理解特定业务工作流,实现个性化、专业化。
分层结构总结
- LLM:基础智能引擎
- Token 和 Context:信息处理边界
- Prompt:行为方向盘
- Tool 和 MCP:现实世界接口
- Agent:规划与执行能力
- Agent Skill:业务场景适配