第 1 课:什么是 LLM(30 秒讲清)

LLM 就像一个读过图书馆里所有书、但从来不"懂"任何东西的人——他能接你的话茬,因为他见过无数人说的话。

🎯 学完你能

  • :跟 ChatGPT / Claude 聊天时,知道它是怎么"工作"的
  • 判断:看到"AI 写代码"这种新闻,能分清是"自动写"还是"在你给的内容里挑字"
  • 避免:不会问"昨天的新闻是什么"然后信它——它没有"昨天"这个概念

一句话答案

LLM = 大语言模型 = 一个读完了人类公开文字总量的程序,能根据前文猜下一个字(token)该是什么。

LLM 就像一个读过图书馆里所有书、但从来不"懂"任何东西的人——他能接你的话茬,因为他见过无数人说的话。

🎯 学完你能

  • :跟 ChatGPT / Claude 聊天时,知道它是怎么"工作"的,不会期待它能上网查资料
  • 判断:看到"AI 写代码"这种新闻,能分清是"自动写"还是"在你给的内容里挑字"
  • 避免:不会问"昨天的新闻是什么"然后信它——它没有"昨天"这个概念

一句话答案

LLM = 大语言模型 = 一个读完了人类公开文字总量的程序,能根据前文猜下一个字(token)该是什么。

为什么重要

LLM 是 ChatGPT / Claude / Gemini / 通义千问 / 文心一言 背后的技术。你每天用的"AI 助手"几乎都是 LLM。

知道 LLM 是"猜下一个字"不是"理解",你就能:

  • 不被"AI 看起来很聪明"骗到——它只是统计学
  • 知道它不能上网(除非额外接了工具)
  • 知道它会编(因为"猜下一个字"≠“说真话”)

核心概念(3 个)

1. Token(最小单位)

LLM 不看"字",看 token(约等于 0.7 个汉字或 0.4 个英文单词)。

  • “你好世界” → 3 个 token
  • “Hello” → 1 个 token

这就是为什么 AI 按 token 收费、为什么中文比英文"贵"(同样的意思中文用更多 token)。

2. 上下文窗口

LLM 一次能"看到"的文字量是有限的。Claude 大约 20 万 token(一本《战争与和平》)。

  • 对话太长,最前面的内容它会"忘记"(技术上叫"lost in the middle")
  • 没有记忆,每次对话都是独立的(除非开发者接了持久化)

3. 训练 vs 推理

  • 训练:让模型"读完"人类所有公开文字(耗时几个月 + 几千张 GPU)
  • 推理:你问问题时,它已经训练完了——只是根据前文猜下一个字

这就是为什么:

  • 不知道训练截止之后发生的事(比如它不知道昨天的新闻)
  • 不会自我学习(跟它聊 100 遍它也不会"变聪明")
  • 模型有版本(GPT-4 / Claude 3.5 / Claude 4 是不同时刻的"快照")

真实例子

场景:你让 ChatGPT 帮你写一封请假邮件

“帮我写一封邮件” → AI 不知道你请什么假、给谁写、什么语气

“帮我写一封邮件。情境:今天感冒发烧想请一天病假。收件人:直属领导张总。语气:正式但不失温度。控制在 150 字以内。” → AI 给的邮件立刻能用

为什么? LLM 是"猜下一个字",你给的信息越多,前文线索越丰富,它就能"猜"得越准。这跟人写东西其实一样——你给的 brief 越清楚,输出越好。

你能立刻试的(3 件事)

  1. 感受上下文窗口:打开 claude.ai,对话先发一句"请记住我住在北京",再发 50 段无关废话,最后问"我住哪?"。看它记不记得。
  2. 感受 Token 消耗:同样一段中文 vs 英文,问同一个问题,看 Claude / ChatGPT 的 token 用量差异。
  3. 感受"猜下一个字"的本质:问"请把这句话倒过来念:‘今天天气真好’"。它大概率会失败,因为"倒着念"不是"按顺序生成"的事。

自测题

  1. LLM 真的"理解"你说的中文吗?

    答案**不真正理解**。它看到的是 token(一串数字),通过统计模式"猜下一个 token"。理解是我们人类的主观感受。
  2. 为什么 AI 不能告诉你"刚才发生了什么"?

    答案两个原因:(1) 它的训练有截止日期,之后的事它不知道;(2) 它**没联网**——除非开发者接了搜索工具。
  3. AI 训练完之后,会因为跟你的对话"成长"吗?

    答案**不会**。每个新对话对 LLM 来说都是独立的——除非开发者加了"记忆"功能把它说的话存起来,下次带过去。

易混淆

  • ❌ “AI 真的能思考”

  • ✅ “AI 是统计学机器,能模仿’思考’的输出”

  • ❌ “AI 训练用的是网络上的实时数据”

  • ✅ “AI 训练用的是固定时刻的快照数据,训练完就定型了”

  • ❌ “AI 越用越聪明”

  • ✅ “AI 在单次会话内表现稳定,跨会话不学习(除非外部加记忆)”

延伸阅读