第 1 课:什么是 LLM(30 秒讲清)
LLM 就像一个读过图书馆里所有书、但从来不"懂"任何东西的人——他能接你的话茬,因为他见过无数人说的话。
🎯 学完你能
- 用:跟 ChatGPT / Claude 聊天时,知道它是怎么"工作"的
- 判断:看到"AI 写代码"这种新闻,能分清是"自动写"还是"在你给的内容里挑字"
- 避免:不会问"昨天的新闻是什么"然后信它——它没有"昨天"这个概念
一句话答案
LLM = 大语言模型 = 一个读完了人类公开文字总量的程序,能根据前文猜下一个字(token)该是什么。
LLM 就像一个读过图书馆里所有书、但从来不"懂"任何东西的人——他能接你的话茬,因为他见过无数人说的话。
🎯 学完你能
- 用:跟 ChatGPT / Claude 聊天时,知道它是怎么"工作"的,不会期待它能上网查资料
- 判断:看到"AI 写代码"这种新闻,能分清是"自动写"还是"在你给的内容里挑字"
- 避免:不会问"昨天的新闻是什么"然后信它——它没有"昨天"这个概念
一句话答案
LLM = 大语言模型 = 一个读完了人类公开文字总量的程序,能根据前文猜下一个字(token)该是什么。
为什么重要
LLM 是 ChatGPT / Claude / Gemini / 通义千问 / 文心一言 背后的技术。你每天用的"AI 助手"几乎都是 LLM。
知道 LLM 是"猜下一个字"不是"理解",你就能:
- 不被"AI 看起来很聪明"骗到——它只是统计学
- 知道它不能上网(除非额外接了工具)
- 知道它会编(因为"猜下一个字"≠“说真话”)
核心概念(3 个)
1. Token(最小单位)
LLM 不看"字",看 token(约等于 0.7 个汉字或 0.4 个英文单词)。
- “你好世界” → 3 个 token
- “Hello” → 1 个 token
这就是为什么 AI 按 token 收费、为什么中文比英文"贵"(同样的意思中文用更多 token)。
2. 上下文窗口
LLM 一次能"看到"的文字量是有限的。Claude 大约 20 万 token(一本《战争与和平》)。
- 对话太长,最前面的内容它会"忘记"(技术上叫"lost in the middle")
- 它没有记忆,每次对话都是独立的(除非开发者接了持久化)
3. 训练 vs 推理
- 训练:让模型"读完"人类所有公开文字(耗时几个月 + 几千张 GPU)
- 推理:你问问题时,它已经训练完了——只是根据前文猜下一个字
这就是为什么:
- 它不知道训练截止之后发生的事(比如它不知道昨天的新闻)
- 它不会自我学习(跟它聊 100 遍它也不会"变聪明")
- 模型有版本(GPT-4 / Claude 3.5 / Claude 4 是不同时刻的"快照")
真实例子
场景:你让 ChatGPT 帮你写一封请假邮件
前:
“帮我写一封邮件” → AI 不知道你请什么假、给谁写、什么语气
后:
“帮我写一封邮件。情境:今天感冒发烧想请一天病假。收件人:直属领导张总。语气:正式但不失温度。控制在 150 字以内。” → AI 给的邮件立刻能用
为什么? LLM 是"猜下一个字",你给的信息越多,前文线索越丰富,它就能"猜"得越准。这跟人写东西其实一样——你给的 brief 越清楚,输出越好。
你能立刻试的(3 件事)
- 感受上下文窗口:打开 claude.ai,对话先发一句"请记住我住在北京",再发 50 段无关废话,最后问"我住哪?"。看它记不记得。
- 感受 Token 消耗:同样一段中文 vs 英文,问同一个问题,看 Claude / ChatGPT 的 token 用量差异。
- 感受"猜下一个字"的本质:问"请把这句话倒过来念:‘今天天气真好’"。它大概率会失败,因为"倒着念"不是"按顺序生成"的事。
自测题
LLM 真的"理解"你说的中文吗?
答案
**不真正理解**。它看到的是 token(一串数字),通过统计模式"猜下一个 token"。理解是我们人类的主观感受。为什么 AI 不能告诉你"刚才发生了什么"?
答案
两个原因:(1) 它的训练有截止日期,之后的事它不知道;(2) 它**没联网**——除非开发者接了搜索工具。AI 训练完之后,会因为跟你的对话"成长"吗?
答案
**不会**。每个新对话对 LLM 来说都是独立的——除非开发者加了"记忆"功能把它说的话存起来,下次带过去。
易混淆
❌ “AI 真的能思考”
✅ “AI 是统计学机器,能模仿’思考’的输出”
❌ “AI 训练用的是网络上的实时数据”
✅ “AI 训练用的是固定时刻的快照数据,训练完就定型了”
❌ “AI 越用越聪明”
✅ “AI 在单次会话内表现稳定,跨会话不学习(除非外部加记忆)”
延伸阅读
- Andrej Karpathy 的 Let’s build GPT — 从零手写一个迷你 GPT(视频,英文,2 小时,但讲得极好)
- 3Blue1Brown 的神经网络系列 — 可视化理解神经网络(YouTube 英文,有中文字幕)