Tokenizer（分词器）

Tokenizer（分词器）

定义

连接人类语言和模型数字世界的翻译层。Tokenizer 负责将人类输入的文本转换为模型能处理的 Token 序列（编码），以及将模型输出的 Token 序列转换回人类可读的文字（解码）。

核心功能

编码（Encoding）

切分：将输入文本按照统计规律切成最小片段（Token）
映射：每个 Token 根据词表映射成一个唯一编号（Token ID）

解码（Decoding）

将模型输出的 Token ID 序列还原为人类可读的文本

关键认知

Token 不等于"词"：Token 是文本被切分后的最小片段，与自然语言中的"词"并非一一对应
中文中 1 个 Token 约等于 1.5 到 2 个汉字
英文中 1 个 Token 约等于 0.75 个单词
Tokenizer 的切分方式影响模型的成本、容量和性能

工程意义

Token 是模型真正的底层计量单位
API 计费、上下文容量、吞吐能力均按 Token 计算
理解 Tokenizer 有助于准确估算模型使用成本