Tokenizer(分词器)

Tokenizer(分词器)

Tokenizer(分词器)

定义

连接人类语言和模型数字世界的翻译层。Tokenizer 负责将人类输入的文本转换为模型能处理的 Token 序列(编码),以及将模型输出的 Token 序列转换回人类可读的文字(解码)。

核心功能

编码(Encoding)

  1. 切分:将输入文本按照统计规律切成最小片段(Token)
  2. 映射:每个 Token 根据词表映射成一个唯一编号(Token ID)

解码(Decoding)

  • 将模型输出的 Token ID 序列还原为人类可读的文本

关键认知

  • Token 不等于"词":Token 是文本被切分后的最小片段,与自然语言中的"词"并非一一对应
  • 中文中 1 个 Token 约等于 1.5 到 2 个汉字
  • 英文中 1 个 Token 约等于 0.75 个单词
  • Tokenizer 的切分方式影响模型的成本、容量和性能

工程意义

  • Token 是模型真正的底层计量单位
  • API 计费、上下文容量、吞吐能力均按 Token 计算
  • 理解 Tokenizer 有助于准确估算模型使用成本
分享到