在当今这个技术飞速迭代的时代,我们的信息流每天都在被各种前沿人工智能术语轰炸,LLM、Token、Context Window、Prompt、Agent、MCP……
这些词汇频繁出现在科技媒体、行业报告和产品发布会上。对很多关注技术发展的人来说,虽然这些词几乎都听过,但如果真要把它们一个一个拉回到底层工程视角,讲清楚每个概念到底是什么意思、彼此怎么衔接、为什么重要,很多人其实还是会有一点模糊。
所以这篇文章不打算聊玄学,也不打算谈那些过于空泛的“AI 哲学”。我们就回到底层工程师的视角,把这些热门 AI 概念一层一层拆开,像剥洋葱一样,尽量讲到结构清楚、关系明白。
如果一路看完,你会发现,所谓 AI 技术栈并不是一堆零散热词,而是一套逻辑非常严密的分层系统。从最底层的文本预测引擎,一直往上堆到具备规划能力的智能体,再到高度定制化的 Agent Skill,本质上是一条非常清晰的工程演化链条。
第一层:一切的起点,LLM 与 Transformer
今天所有主流的大模型,底层核心几乎都建立在 Transformer 架构上。
2017 年,Google 团队发表《Attention is All You Need》,正式把 Transformer 推上历史舞台。后来,随着大规模预训练和产品化能力成熟,整个 AI 世界被重新点火。今天我们熟悉的 ChatGPT、Claude、Gemini,尽管产品形态不同,底层思路都和这条技术路线紧密相关。
那么,这个看起来无比强大的大模型,在底层究竟是怎么工作的?
其实它的核心原理非常朴素,本质上就是一个极其高级的“文字接龙引擎”。
比如你输入一句话:
“工业智能的发展趋势是……”
模型接收这串信息后,会基于海量参数和内部运算,预测下一个最可能出现的 Token。假设它预测出来的是“向”。
接着它不会停下,而是把刚输出的“向”拼回原句,形成新的输入:
“工业智能的发展趋势是向”
然后再次预测,继续输出“前”或者其他后续内容,再把新输出继续拼进去,继续往下预测。
如此循环,直到模型判断这一段内容已经完成,并输出某种结束信号,生成过程才停止。
理解了这一点,你就会明白,为什么大模型在前端界面里总是一点一点往外“吐字”,因为这就是它底层工作的真实节奏。它不是先在心里写完整篇文章再一次性发出来,而是在不断预测“下一个最合理的片段”时,把整段内容逐步构建出来。
第二层:机器为什么不懂字,Tokenizer 与 Token 到底是什么
上面我们为了方便理解,说模型是在一个个“词”地往下接。但在真实工程环境里,它其实并不直接处理“字”和“词”,而只处理数字。
模型本质上是一个数学系统,它认得张量、向量和矩阵,不认得人类的文字。因此,在人类语言和模型之间,必须有一个翻译层,这就是 Tokenizer。
Tokenizer 的任务有两个:
- 编码:把人类输入的文本转换成模型能处理的 Token 序列
- 解码:把模型输出的 Token 序列再转换回人类可读的文字
这个过程通常分成两步。
1. 切分
Tokenizer 会把输入文本按照统计规律切成很多最小片段,这些片段就叫 Token。
2. 映射
每个 Token 再根据词表映射成一个唯一编号,也就是 Token ID。
要注意,Token 不等于“词”。它和我们日常理解里的词语并不是一一对应的。
比如“博雅云创”这四个字,在人类眼里可能是一个整体名字,但 Tokenizer 很可能会把它切成“博雅”“云”“创”几个片段。英文里一个常见单词可能是一个 Token,但一个少见复合词则可能被拆成两三个。
这就是为什么在大模型世界里,Token 才是真正的底层计量单位。无论是吞吐能力、上下文容量,还是 API 计费,最终都不是按“字数”来算,而是按 Token 来算。
大致上可以粗略理解为:
- 1 个 Token 约等于 0.75 个英文单词
- 中文里 1 个 Token 往往相当于 1.5 到 2 个汉字左右
所以当某个模型说自己支持 10 万 Token,其实你应该立刻意识到,它支持的是一个非常大的输入空间,而不是一个抽象营销数字。
第三层:模型为什么看起来“记得你说过什么”,Context 与 Context Window
很多人和大模型对话时,会产生一种很强的错觉,觉得它“记得”自己之前说过的话。
但如果从工程上讲,模型本身其实并没有持久记忆。它更像一条计算完成就清空现场的流水线。之所以表现出“记得上下文”,是因为每次你发新问题时,平台都会把之前的对话记录一起打包,再连同新问题作为一份新的输入重新发给模型。
这一整包信息,就叫 Context,上下文。
你可以把它理解为模型当前任务的“短时记忆缓冲区”。它里面装着:
- 用户刚刚问的问题
- 之前的对话记录
- 系统设定
- 可能还包括工具返回的数据、附加文档等信息
而这个缓冲区不是无限大的。它有一个容量上限,这就是 Context Window,上下文窗口。
Context Window 代表模型单次最多能处理多少 Token。早期模型可能只有几千 Token,现在先进模型已经把窗口扩展到几十万、上百万,足以一次装下整本书甚至更多资料。
但窗口再大,也不意味着应该无脑把所有资料都丢进去。
因为上下文越长,成本越高,噪声越多,模型注意力分散的风险也越大。
第四层:为什么需要 RAG,因为不是所有知识都该硬塞进窗口
假设你有一套上千页的工业软件说明书,想让模型回答其中某个细节问题。如果每次提问都把这上千页全文塞进 Context,不仅成本高得离谱,模型也很可能在海量文本里丢掉重点。
这时候就需要 RAG,Retrieval-Augmented Generation,检索增强生成。
RAG 的核心逻辑非常实用:
- 先把大文档切片
- 把这些切片做向量化,存进向量数据库
- 用户提问时,先去数据库里找最相关的几个片段
- 再把这些片段连同问题,一起送进模型
也就是说,RAG 不让模型每次都读整本书,而是先帮它“翻目录、找重点”,然后只把最相关的内容喂进去。
这样做有三个好处:
- 打破上下文窗口限制
- 降低 Token 成本
- 提高回答准确率
很多企业知识库、工业问答系统、法律检索系统,本质上都是在这套逻辑上构建起来的。
第五层:Prompt 不是玄学,而是方向盘
既然模型完全依赖输入的 Context 工作,那么我们如何主动控制它的输出方向?
答案就是 Prompt。
Prompt 本质上就是你给模型的指令,但它不是随便写几句话那么简单。因为模型天然具备强发散性,如果你只说“帮我写一份报告”,它往往会给你一堆看起来像样、但其实很空的标准废话。
从工程上看,我们通常会区分两个层级的 Prompt。
1. User Prompt
也就是用户直接输入的问题或任务。
2. System Prompt
也就是后台给模型设定的隐藏规则,决定它是谁、该怎么说、该遵守什么边界。
举个工业场景例子。
假设你做一个辅助工厂排障的 AI 系统。你希望它不要一上来就下武断结论,而是像资深工程师一样,引导操作员一步步检查现场参数。
那么你就会给它一段很强的 System Prompt,例如:
你是一位有 20 年经验的工业设备维护专家。当用户报告故障时,禁止直接给出零件更换结论,必须先要求用户检查传感器数据、振动频率、电流曲线和设备日志,再根据反馈逐步分析。
此时,用户在前端输入:
“这台数控机床加工精度突然下降了,切削有异响。”
模型最终就不会直接说“更换主轴轴承”,而是会按你的规则回答:
请先检查今天的电机电流曲线是否出现异常波峰,并测量一下主轴当前的径向跳动值,再把结果发给我。
这就是 Prompt 工程真正的意义,它不是“写咒语”,而是通过清晰约束,给模型装上行为轨道。
第六层:模型为什么必须接工具,Tool 与 MCP 到底在解决什么
哪怕模型再聪明,它也有一个天然弱点,它本身无法直接感知实时世界。
你问它:
“现在一号车间那台 ROS 2 机器人还有多少电?”
如果它没有外部接口,就只能诚实地说自己不知道。
因为模型不是传感器,也不是数据库。它不会凭空读取现实中的设备状态。要想让它接触世界,必须给它接上 Tool,也就是工具。
从工程上说,Tool 通常就是被封装好的外部函数或 API。比如你可以写一个函数:
get_robot_telemetry(robot_id)
它会返回该机器人的电量、位置、状态等数据。
模型自己不会真的执行代码,所以中间必须有平台做桥接。流程大致是:
- 平台告诉模型,目前有哪些工具可用
- 模型根据用户问题,输出一条“我要调用哪个工具、传什么参数”的指令
- 平台接到指令后,实际执行代码
- 再把工具结果喂回给模型
- 模型根据工具返回值,用自然语言回答用户
但这会带来一个老问题,不同平台、不同模型厂商、不同客户端,工具接入方式各不相同,工程重复劳动极大。
这时,MCP,Model Context Protocol,就非常重要了。
MCP 的意义,有点像 Type-C 对硬件连接的意义。它试图为模型和工具之间的交互建立一个统一协议。
有了这套标准,工具开发者不需要为不同模型平台一遍遍重写接入逻辑。只要你按 MCP 封装好,理论上就能在多个模型环境中复用。
这会极大提升 AI 与现实系统、工业设备、企业平台对接的效率。
第七层:当模型开始会规划,Agent 就出现了
当模型本身具备了较强推理能力,又能调用丰富工具时,系统就会发生一次质变,Agent,智能体,出现了。
如果说调用一个 Tool 只是一次“查一下”,那么 Agent 更像是一个会拆任务、做计划、不断试错并持续推进直到完成目标的执行者。
举个例子。
用户说:
“查一下 1 号车间 ROS 2 移动机器人的状态。如果电量低于 20%,就帮它找最近的空闲充电桩,并下发导航命令。”
这时候,Agent 不会只调用一个工具就结束。它会分步骤工作:
- 先查询机器人状态
- 判断电量是否低于阈值
- 如果是,再去查询附近可用充电桩
- 获取最优目标点
- 下发导航指令
- 最后向用户汇报整个处理结果
整个过程中,它会不断在“思考”和“行动”之间循环:
- 思考:下一步应该做什么
- 行动:调用相应工具
- 观察:拿到返回结果
- 再思考:根据结果决定下一步
这类模式在很多工程框架里被称为 ReAct,也就是 Reasoning and Acting 的循环。
Agent 和普通问答模型最大的不同就在这里,它不是只负责“说”,而是开始负责“做”。
第八层:为什么还需要 Agent Skill,因为通用 Agent 还不够懂你
到这里,模型已经很强了,会推理、会调用工具、会拆解任务,看起来像个真正的数字劳动力。
但一旦进入真实业务现场,你会很快发现一个问题:
通用 Agent 并不真正理解你的工作流。
举个现实例子。
如果你每天都要做一套固定的行业新闻采编工作,要搜集关键词、筛选来源、去重、提炼重点、按固定 Markdown 结构输出。那么一个普通 Agent 就算再聪明,也不天然知道:
- 你关注哪些关键词
- 你认为哪些来源可信
- 哪些重复新闻应该丢弃
- 输出必须按什么格式写
- 什么风格可以接受,什么风格不能接受
如果每次都靠临时对话补充这些背景,成本会非常高,也极不稳定。
这时,Agent Skill 就出现了。
Agent Skill 本质上可以理解为:
一份写给 Agent 的结构化操作说明书。
它通常是一个带有明确元数据、步骤、规则、输出格式和示例的文件,让 Agent 在特定任务场景中直接继承你的做事方法。
一份标准 Skill 里通常会包含:
- 名称和描述
- 适用场景
- 执行步骤
- 判断规则
- 输出格式
- 示例
这样一来,当你只说一句:
“开始执行今日新闻采编工作流。”
Agent 就不需要你重新解释一遍要求,而是会自动载入对应 Skill,按你预设好的规则去调用工具、筛选信息、组织输出。
这时候,AI 才真正从一个通用模型,变成了一个贴近业务、贴近个人方法论的专属数字助手。
结语:看懂这条链,才算真正摸到 AI 的骨架
从最底层的 LLM,到 Token、Context、Prompt,再到 Tool、MCP、Agent,最后走到 Agent Skill,AI 技术栈其实已经形成了一套非常清晰的分层结构。
- LLM 提供基础智能引擎
- Token 和 Context 决定它的信息处理边界
- Prompt 是人类给它的方向盘
- Tool 和 MCP 让它接触现实世界
- Agent 赋予它规划和执行能力
- Agent Skill 则让它真正懂你的工作流和业务场景
理解了这套底层逻辑,你再去看市场上层出不穷的新产品、新框架、新概念,就不会那么容易被营销话术带着跑。
因为你已经知道,这些东西本质上都只是建立在同一座技术大厦上的不同楼层。
而在未来工业化与智能化持续推进的过程中,真正能让人保持判断力的,不是追逐热词,而是理解底层工程逻辑。
因为只有摸清楚这副骨架,你才真正知道,AI 到底在长成什么。