从 LLM 到 Agent Skill：一文带你打通 AI 技术的底层工程逻辑

2026-04-11

LLM, AI技术, Agent, MCP, Prompt Engineering, Agent Skill

在当今这个技术飞速迭代的时代，我们的信息流每天都在被各种前沿人工智能术语轰炸，LLM、Token、Context Window、Prompt、Agent、MCP……

这些词汇频繁出现在科技媒体、行业报告和产品发布会上。对很多关注技术发展的人来说，虽然这些词几乎都听过，但如果真要把它们一个一个拉回到底层工程视角，讲清楚每个概念到底是什么意思、彼此怎么衔接、为什么重要，很多人其实还是会有一点模糊。

所以这篇文章不打算聊玄学，也不打算谈那些过于空泛的“AI 哲学”。我们就回到底层工程师的视角，把这些热门 AI 概念一层一层拆开，像剥洋葱一样，尽量讲到结构清楚、关系明白。

如果一路看完，你会发现，所谓 AI 技术栈并不是一堆零散热词，而是一套逻辑非常严密的分层系统。从最底层的文本预测引擎，一直往上堆到具备规划能力的智能体，再到高度定制化的 Agent Skill，本质上是一条非常清晰的工程演化链条。

第一层：一切的起点，LLM 与 Transformer

今天所有主流的大模型，底层核心几乎都建立在 Transformer 架构上。

2017 年，Google 团队发表《Attention is All You Need》，正式把 Transformer 推上历史舞台。后来，随着大规模预训练和产品化能力成熟，整个 AI 世界被重新点火。今天我们熟悉的 ChatGPT、Claude、Gemini，尽管产品形态不同，底层思路都和这条技术路线紧密相关。

那么，这个看起来无比强大的大模型，在底层究竟是怎么工作的？

其实它的核心原理非常朴素，本质上就是一个极其高级的“文字接龙引擎”。

比如你输入一句话：

“工业智能的发展趋势是……”

模型接收这串信息后，会基于海量参数和内部运算，预测下一个最可能出现的 Token。假设它预测出来的是“向”。

接着它不会停下，而是把刚输出的“向”拼回原句，形成新的输入：

“工业智能的发展趋势是向”

然后再次预测，继续输出“前”或者其他后续内容，再把新输出继续拼进去，继续往下预测。

如此循环，直到模型判断这一段内容已经完成，并输出某种结束信号，生成过程才停止。

理解了这一点，你就会明白，为什么大模型在前端界面里总是一点一点往外“吐字”，因为这就是它底层工作的真实节奏。它不是先在心里写完整篇文章再一次性发出来，而是在不断预测“下一个最合理的片段”时，把整段内容逐步构建出来。

第二层：机器为什么不懂字，Tokenizer 与 Token 到底是什么

上面我们为了方便理解，说模型是在一个个“词”地往下接。但在真实工程环境里，它其实并不直接处理“字”和“词”，而只处理数字。

模型本质上是一个数学系统，它认得张量、向量和矩阵，不认得人类的文字。因此，在人类语言和模型之间，必须有一个翻译层，这就是 Tokenizer。

Tokenizer 的任务有两个：

编码：把人类输入的文本转换成模型能处理的 Token 序列
解码：把模型输出的 Token 序列再转换回人类可读的文字

这个过程通常分成两步。

1. 切分

Tokenizer 会把输入文本按照统计规律切成很多最小片段，这些片段就叫 Token。

2. 映射

每个 Token 再根据词表映射成一个唯一编号，也就是 Token ID。

要注意，Token 不等于“词”。它和我们日常理解里的词语并不是一一对应的。

比如“博雅云创”这四个字，在人类眼里可能是一个整体名字，但 Tokenizer 很可能会把它切成“博雅”“云”“创”几个片段。英文里一个常见单词可能是一个 Token，但一个少见复合词则可能被拆成两三个。

这就是为什么在大模型世界里，Token 才是真正的底层计量单位。无论是吞吐能力、上下文容量，还是 API 计费，最终都不是按“字数”来算，而是按 Token 来算。

大致上可以粗略理解为：

1 个 Token 约等于 0.75 个英文单词
中文里 1 个 Token 往往相当于 1.5 到 2 个汉字左右

所以当某个模型说自己支持 10 万 Token，其实你应该立刻意识到，它支持的是一个非常大的输入空间，而不是一个抽象营销数字。

第三层：模型为什么看起来“记得你说过什么”，Context 与 Context Window

很多人和大模型对话时，会产生一种很强的错觉，觉得它“记得”自己之前说过的话。

但如果从工程上讲，模型本身其实并没有持久记忆。它更像一条计算完成就清空现场的流水线。之所以表现出“记得上下文”，是因为每次你发新问题时，平台都会把之前的对话记录一起打包，再连同新问题作为一份新的输入重新发给模型。

这一整包信息，就叫 Context，上下文。

你可以把它理解为模型当前任务的“短时记忆缓冲区”。它里面装着：

用户刚刚问的问题
之前的对话记录
系统设定
可能还包括工具返回的数据、附加文档等信息

而这个缓冲区不是无限大的。它有一个容量上限，这就是 Context Window，上下文窗口。

Context Window 代表模型单次最多能处理多少 Token。早期模型可能只有几千 Token，现在先进模型已经把窗口扩展到几十万、上百万，足以一次装下整本书甚至更多资料。

但窗口再大，也不意味着应该无脑把所有资料都丢进去。

因为上下文越长，成本越高，噪声越多，模型注意力分散的风险也越大。

第四层：为什么需要 RAG，因为不是所有知识都该硬塞进窗口

假设你有一套上千页的工业软件说明书，想让模型回答其中某个细节问题。如果每次提问都把这上千页全文塞进 Context，不仅成本高得离谱，模型也很可能在海量文本里丢掉重点。

这时候就需要 RAG，Retrieval-Augmented Generation，检索增强生成。

RAG 的核心逻辑非常实用：

先把大文档切片
把这些切片做向量化，存进向量数据库
用户提问时，先去数据库里找最相关的几个片段
再把这些片段连同问题，一起送进模型

也就是说，RAG 不让模型每次都读整本书，而是先帮它“翻目录、找重点”，然后只把最相关的内容喂进去。

这样做有三个好处：

打破上下文窗口限制
降低 Token 成本
提高回答准确率

很多企业知识库、工业问答系统、法律检索系统，本质上都是在这套逻辑上构建起来的。

第五层：Prompt 不是玄学，而是方向盘

既然模型完全依赖输入的 Context 工作，那么我们如何主动控制它的输出方向？

答案就是 Prompt。

Prompt 本质上就是你给模型的指令，但它不是随便写几句话那么简单。因为模型天然具备强发散性，如果你只说“帮我写一份报告”，它往往会给你一堆看起来像样、但其实很空的标准废话。

从工程上看，我们通常会区分两个层级的 Prompt。

1. User Prompt

也就是用户直接输入的问题或任务。

2. System Prompt

也就是后台给模型设定的隐藏规则，决定它是谁、该怎么说、该遵守什么边界。

举个工业场景例子。

假设你做一个辅助工厂排障的 AI 系统。你希望它不要一上来就下武断结论，而是像资深工程师一样，引导操作员一步步检查现场参数。

那么你就会给它一段很强的 System Prompt，例如：

你是一位有 20 年经验的工业设备维护专家。当用户报告故障时，禁止直接给出零件更换结论，必须先要求用户检查传感器数据、振动频率、电流曲线和设备日志，再根据反馈逐步分析。

此时，用户在前端输入：

“这台数控机床加工精度突然下降了，切削有异响。”

模型最终就不会直接说“更换主轴轴承”，而是会按你的规则回答：

请先检查今天的电机电流曲线是否出现异常波峰，并测量一下主轴当前的径向跳动值，再把结果发给我。

这就是 Prompt 工程真正的意义，它不是“写咒语”，而是通过清晰约束，给模型装上行为轨道。

第六层：模型为什么必须接工具，Tool 与 MCP 到底在解决什么

哪怕模型再聪明，它也有一个天然弱点，它本身无法直接感知实时世界。

你问它：
“现在一号车间那台 ROS 2 机器人还有多少电？”

如果它没有外部接口，就只能诚实地说自己不知道。

因为模型不是传感器，也不是数据库。它不会凭空读取现实中的设备状态。要想让它接触世界，必须给它接上 Tool，也就是工具。

从工程上说，Tool 通常就是被封装好的外部函数或 API。比如你可以写一个函数：

get_robot_telemetry(robot_id)

它会返回该机器人的电量、位置、状态等数据。

模型自己不会真的执行代码，所以中间必须有平台做桥接。流程大致是：

平台告诉模型，目前有哪些工具可用
模型根据用户问题，输出一条“我要调用哪个工具、传什么参数”的指令
平台接到指令后，实际执行代码
再把工具结果喂回给模型
模型根据工具返回值，用自然语言回答用户

但这会带来一个老问题，不同平台、不同模型厂商、不同客户端，工具接入方式各不相同，工程重复劳动极大。

这时，MCP，Model Context Protocol，就非常重要了。

MCP 的意义，有点像 Type-C 对硬件连接的意义。它试图为模型和工具之间的交互建立一个统一协议。

有了这套标准，工具开发者不需要为不同模型平台一遍遍重写接入逻辑。只要你按 MCP 封装好，理论上就能在多个模型环境中复用。

这会极大提升 AI 与现实系统、工业设备、企业平台对接的效率。

第七层：当模型开始会规划，Agent 就出现了

当模型本身具备了较强推理能力，又能调用丰富工具时，系统就会发生一次质变，Agent，智能体，出现了。

如果说调用一个 Tool 只是一次“查一下”，那么 Agent 更像是一个会拆任务、做计划、不断试错并持续推进直到完成目标的执行者。

举个例子。

用户说：

“查一下 1 号车间 ROS 2 移动机器人的状态。如果电量低于 20%，就帮它找最近的空闲充电桩，并下发导航命令。”

这时候，Agent 不会只调用一个工具就结束。它会分步骤工作：

先查询机器人状态
判断电量是否低于阈值
如果是，再去查询附近可用充电桩
获取最优目标点
下发导航指令
最后向用户汇报整个处理结果

整个过程中，它会不断在“思考”和“行动”之间循环：

思考：下一步应该做什么
行动：调用相应工具
观察：拿到返回结果
再思考：根据结果决定下一步

这类模式在很多工程框架里被称为 ReAct，也就是 Reasoning and Acting 的循环。

Agent 和普通问答模型最大的不同就在这里，它不是只负责“说”，而是开始负责“做”。

第八层：为什么还需要 Agent Skill，因为通用 Agent 还不够懂你

到这里，模型已经很强了，会推理、会调用工具、会拆解任务，看起来像个真正的数字劳动力。

但一旦进入真实业务现场，你会很快发现一个问题：

通用 Agent 并不真正理解你的工作流。

举个现实例子。

如果你每天都要做一套固定的行业新闻采编工作，要搜集关键词、筛选来源、去重、提炼重点、按固定 Markdown 结构输出。那么一个普通 Agent 就算再聪明，也不天然知道：

你关注哪些关键词
你认为哪些来源可信
哪些重复新闻应该丢弃
输出必须按什么格式写
什么风格可以接受，什么风格不能接受

如果每次都靠临时对话补充这些背景，成本会非常高，也极不稳定。

这时，Agent Skill 就出现了。

Agent Skill 本质上可以理解为：

一份写给 Agent 的结构化操作说明书。

它通常是一个带有明确元数据、步骤、规则、输出格式和示例的文件，让 Agent 在特定任务场景中直接继承你的做事方法。

一份标准 Skill 里通常会包含：

名称和描述
适用场景
执行步骤
判断规则
输出格式
示例

这样一来，当你只说一句：

“开始执行今日新闻采编工作流。”

Agent 就不需要你重新解释一遍要求，而是会自动载入对应 Skill，按你预设好的规则去调用工具、筛选信息、组织输出。

这时候，AI 才真正从一个通用模型，变成了一个贴近业务、贴近个人方法论的专属数字助手。

结语：看懂这条链，才算真正摸到 AI 的骨架

从最底层的 LLM，到 Token、Context、Prompt，再到 Tool、MCP、Agent，最后走到 Agent Skill，AI 技术栈其实已经形成了一套非常清晰的分层结构。

LLM 提供基础智能引擎
Token 和 Context 决定它的信息处理边界
Prompt 是人类给它的方向盘
Tool 和 MCP 让它接触现实世界
Agent 赋予它规划和执行能力
Agent Skill 则让它真正懂你的工作流和业务场景

理解了这套底层逻辑，你再去看市场上层出不穷的新产品、新框架、新概念，就不会那么容易被营销话术带着跑。

因为你已经知道，这些东西本质上都只是建立在同一座技术大厦上的不同楼层。

而在未来工业化与智能化持续推进的过程中，真正能让人保持判断力的，不是追逐热词，而是理解底层工程逻辑。

因为只有摸清楚这副骨架，你才真正知道，AI 到底在长成什么。