第 2 课:什么是 Token(AI 数的是"砖头",不是字)
就像盖房子:AI 不认识你写的字,它只认一种东西——“砖头”。一句完整的话,是用一堆标准大小的砖头拼出来的。
🎯 学完你能
- 解释什么是 token,用一句话让朋友听懂
- 理解为什么中文比英文"贵" 2-3 倍
- 上手用工具查看自己一句话消耗了多少 token
一句话答案
Token 是 AI 处理文字的最小单位。中文每个字通常要单独算一个 token,英文一个词算一个 token,所以同样内容中文消耗的 token 数量大约是英文的 2 倍。
为什么重要
这个概念直接影响你三件事:
第一,钱包。所有 AI 工具按 token 收费(哪怕 ChatGPT Plus 是月费,背后也是按 token 算成本)。同样问一个问题,中文用户花的钱是英文用户的 2 倍左右——这就像用人民币换美元要手续费一样,是"汇率差"。
第二,能聊多长。AI 一次能"记住"的内容有限(上下文窗口),也是按 token 算的。一段 1000 字的中文文章,AI 看到的是大约 1500-2000 个 token;同样 1000 字的英文,AI 看到的大约 600-800 个 token。
第三,写 Prompt 的习惯。知道 token 怎么算,你就知道为什么"别废话"很重要——每个"啊"“呢"“嘛"都在悄悄花你的钱。
核心概念(4 个)
1. Token = AI 的"砖头”
AI 不像人一样"读字”,它处理的是数字。你输入的任何文字,AI 内部第一步就是把它拆成一个个小块,每块对应一个数字 ID。这个"小块"就叫 token。
举个例子,“unhappiness” 这个英文单词,AI 可能会拆成: