Tokenizer(分词器)
定义
连接人类语言和模型数字世界的翻译层。Tokenizer 负责将人类输入的文本转换为模型能处理的 Token 序列(编码),以及将模型输出的 Token 序列转换回人类可读的文字(解码)。
核心功能
编码(Encoding)
- 切分:将输入文本按照统计规律切成最小片段(Token)
- 映射:每个 Token 根据词表映射成一个唯一编号(Token ID)
解码(Decoding)
- 将模型输出的 Token ID 序列还原为人类可读的文本
关键认知
- Token 不等于"词":Token 是文本被切分后的最小片段,与自然语言中的"词"并非一一对应
- 中文中 1 个 Token 约等于 1.5 到 2 个汉字
- 英文中 1 个 Token 约等于 0.75 个单词
- Tokenizer 的切分方式影响模型的成本、容量和性能
工程意义
- Token 是模型真正的底层计量单位
- API 计费、上下文容量、吞吐能力均按 Token 计算
- 理解 Tokenizer 有助于准确估算模型使用成本