第 1 课：什么是 LLM（30 秒讲清）

LLM 就像一个读过图书馆里所有书、但从来不"懂"任何东西的人——他能接你的话茬，因为他见过无数人说的话。

🎯 学完你能

用：跟 ChatGPT / Claude 聊天时，知道它是怎么"工作"的
判断：看到"AI 写代码"这种新闻，能分清是"自动写"还是"在你给的内容里挑字"
避免：不会问"昨天的新闻是什么"然后信它——它没有"昨天"这个概念

一句话答案

LLM = 大语言模型 = 一个读完了人类公开文字总量的程序，能根据前文猜下一个字（token）该是什么。

LLM 就像一个读过图书馆里所有书、但从来不"懂"任何东西的人——他能接你的话茬，因为他见过无数人说的话。

🎯 学完你能

用：跟 ChatGPT / Claude 聊天时，知道它是怎么"工作"的，不会期待它能上网查资料
判断：看到"AI 写代码"这种新闻，能分清是"自动写"还是"在你给的内容里挑字"
避免：不会问"昨天的新闻是什么"然后信它——它没有"昨天"这个概念

一句话答案

LLM = 大语言模型 = 一个读完了人类公开文字总量的程序，能根据前文猜下一个字（token）该是什么。

为什么重要

LLM 是 ChatGPT / Claude / Gemini / 通义千问 / 文心一言 背后的技术。你每天用的"AI 助手"几乎都是 LLM。

知道 LLM 是"猜下一个字"不是"理解"，你就能：

不被"AI 看起来很聪明"骗到——它只是统计学
知道它不能上网（除非额外接了工具）
知道它会编（因为"猜下一个字"≠“说真话”）

核心概念（3 个）

1. Token（最小单位）

LLM 不看"字"，看 token（约等于 0.7 个汉字或 0.4 个英文单词）。

“你好世界” → 3 个 token
“Hello” → 1 个 token

这就是为什么 AI 按 token 收费、为什么中文比英文"贵"（同样的意思中文用更多 token）。

2. 上下文窗口

LLM 一次能"看到"的文字量是有限的。Claude 大约 20 万 token（一本《战争与和平》）。

对话太长，最前面的内容它会"忘记"（技术上叫"lost in the middle"）
它没有记忆，每次对话都是独立的（除非开发者接了持久化）

3. 训练 vs 推理

训练：让模型"读完"人类所有公开文字（耗时几个月 + 几千张 GPU）
推理：你问问题时，它已经训练完了——只是根据前文猜下一个字

这就是为什么：

它不知道训练截止之后发生的事（比如它不知道昨天的新闻）
它不会自我学习（跟它聊 100 遍它也不会"变聪明"）
模型有版本（GPT-4 / Claude 3.5 / Claude 4 是不同时刻的"快照"）

真实例子

场景：你让 ChatGPT 帮你写一封请假邮件

前：

“帮我写一封邮件” → AI 不知道你请什么假、给谁写、什么语气

后：

“帮我写一封邮件。情境：今天感冒发烧想请一天病假。收件人：直属领导张总。语气：正式但不失温度。控制在 150 字以内。” → AI 给的邮件立刻能用

为什么？ LLM 是"猜下一个字"，你给的信息越多，前文线索越丰富，它就能"猜"得越准。这跟人写东西其实一样——你给的 brief 越清楚，输出越好。

你能立刻试的（3 件事）

感受上下文窗口：打开 claude.ai，对话先发一句"请记住我住在北京"，再发 50 段无关废话，最后问"我住哪？"。看它记不记得。
感受 Token 消耗：同样一段中文 vs 英文，问同一个问题，看 Claude / ChatGPT 的 token 用量差异。
感受"猜下一个字"的本质：问"请把这句话倒过来念：‘今天天气真好’"。它大概率会失败，因为"倒着念"不是"按顺序生成"的事。

自测题

LLM 真的"理解"你说的中文吗？
答案
**不真正理解**。它看到的是 token（一串数字），通过统计模式"猜下一个 token"。理解是我们人类的主观感受。
为什么 AI 不能告诉你"刚才发生了什么"？
答案
两个原因：(1) 它的训练有截止日期，之后的事它不知道；(2) 它**没联网**——除非开发者接了搜索工具。
AI 训练完之后，会因为跟你的对话"成长"吗？
答案
**不会**。每个新对话对 LLM 来说都是独立的——除非开发者加了"记忆"功能把它说的话存起来，下次带过去。

易混淆

❌ “AI 真的能思考”
✅ “AI 是统计学机器，能模仿’思考’的输出”
❌ “AI 训练用的是网络上的实时数据”
✅ “AI 训练用的是固定时刻的快照数据，训练完就定型了”
❌ “AI 越用越聪明”
✅ “AI 在单次会话内表现稳定，跨会话不学习（除非外部加记忆）”

🎯 学完你能

一句话答案

🎯 学完你能

一句话答案

为什么重要

核心概念（3 个）

1. Token（最小单位）

2. 上下文窗口

3. 训练 vs 推理

真实例子

你能立刻试的（3 件事）

自测题

易混淆

延伸阅读