大模型与架构 2026/6/1
大语言模型是怎么工作的?
大语言模型工作原理深度解析:从Transformer架构到预训练、微调、推理的完整技术链路。
A
AGISeed Team
AGISeed 作者
大语言模型是怎么工作的?通俗解读
编者按:“GPT 到底是怎么理解我说话,还能回答得这么准的?“这个问题可能是 AI 领域最常被问到的问题。这篇文章基于 Google Machine Learning Crash Course 和云原生社区的最新解读,用”无数学公式 + 全流程图解”的方式,把 Transformer 架构、注意力机制讲清楚。
一、先颠覆你的认知
所有大语言模型,本质上只干一件事:猜下一个字。
你没看错。GPT-5、Claude 4、Gemini 2.5——这些看起来无所不能的 AI,本质都是超级文字接龙选手。
那为什么”猜下一个字”能猜出智能?答案藏在两件事里:
- 它读过的东西足够多(整个互联网的文本)
- 它猜的方式足够聪明(Transformer + 注意力机制)
二、从”猜”到”智能”的三层进化
%%{init: {'theme': 'dark', 'themeVariables': {'primaryColor': '#4a9eff', 'lineColor': '#888'}}}%%
graph TB
subgraph "第一层:统计猜词"
A["输入:I love"] --> B["查概率表"]
B --> C["you: 23%<br/>it: 8%<br/>..." ]
end
subgraph "第二层:神经网络"
D["输入:I love"] --> E["神经网络计算"]
E --> F["you: 85%<br/>coffee: 12%<br/>..."]
end
subgraph "第三层:Transformer + 注意力"
G["输入:I love ... in the morning"] --> H["注意力机制"]
H --> I["coffee: 91%<br/>(模型理解了上下文)"]
end
A -.->|"太简单了<br/>记不住上下文"| D
D -.->|"聪明了<br/>但长句还是不行"| G
style H fill:#e74c3c,color:#fff
三、Transformer 架构:LLM 的核心引擎
2017 年 Google 发表论文《Attention Is All You Need》,提出了 Transformer 架构。今天所有主流 LLM(GPT、Claude、DeepSeek、Llama)都是它的后代。
四个关键步骤
%%{init: {'theme': 'dark', 'themeVariables': {'primaryColor': '#4a9eff', 'lineColor': '#888', 'textColor': '#fff'}}}%%
flowchart LR
A["📝 输入文本<br/>I love AI"] --> B["✂️ 分词<br/>Tokenization"]
B --> C["🔢 Embedding<br/>文字→数字向量"]
C --> D["🎯 注意力机制<br/>Self-Attention"]
D --> E["⚙️ FFN 前馈网络<br/>进一步计算"]
E --> F{"结束?"}
F -->|否| D
F -->|是| G["📤 输出预测<br/>下一个 Token"]
style D fill:#e74c3c,color:#fff
style G fill:#2ecc71,color:#fff
步骤 1:分词(Tokenization)
"I love AI" → ["I", " love", " AI"] (3 个 Token)
模型有一个”词汇表”(由 BPE 算法从大量语料中学来),每个 Token 都有唯一编号。
步骤 2:Embedding(词嵌入)
"AI" → [0.32, -0.17, 0.88, ..., 0.05] (通常 1024~4096 维向量)
"机器学习" → [0.29, -0.15, 0.82, ..., 0.09] (含义相似,向量也接近)
步骤 3:注意力机制(核心步骤)
这是 LLM 最聪明的地方——它会”看上下文”。
输入:"The cat sat on the ___."
注意力机制会:
1. 计算每个词与空位的"关联分"
"cat" → 高(主语)"sat" → 高(动词)"on" → 中(介词)"the" → 低
2. 根据关联分加权组合所有词的信息
3. 综合判断:空位应该是 "mat"(垫子)
多头注意力:同时从多个角度关注(语法、语义、逻辑),就像一个人同时从不同角度分析问题。
步骤 4:多层堆叠
一个 Transformer 有几十到上百层。浅层学基础语法和拼写,深层学逻辑推理和主题理解。
四、完整的训练流程
%%{init: {'theme': 'dark', 'themeVariables': {'primaryColor': '#4a9eff', 'lineColor': '#888'}}}%%
flowchart TB
subgraph Phase1["阶段 1:预训练(Pre-training)"]
A["🌐 海量互联网文本<br/>(数万亿 Token)"] --> B["自监督学习<br/>AI 自己填空/猜下一个字"]
B --> C["基础模型 (Base Model)<br/>什么都懂但不会对话"]
end
subgraph Phase2["阶段 2:监督微调(SFT)"]
D["📋 人工标注数据集<br/>(问题→标准答案)"] --> E["教模型按指令回答"]
end
subgraph Phase3["阶段 3:RLHF<br/>人类反馈强化学习"]
F["👥 标注员打分<br/>(这个回答好/不好)"] --> G["让模型学会<br/>什么答案人类喜欢"]
end
C --> Phase2
Phase2 --> Phase3
Phase3 --> H["✅ 最终模型<br/>能对话/听话/安全"]
style Phase3 fill:#e74c3c,color:#fff
五、解码器只有 Transformer(Decoder-only)
当前主流 LLM(GPT、Claude、DeepSeek)只用了 Transformer 的解码器部分,专注于”生成下一个 Token”。这就像一个人只练了”说话”,没练”听力”——但够用了。
六、2026 年的架构演进
| 特性 | 2023 年 | 2026 年 |
|---|---|---|
| 标准架构 | Decoder-only Transformer | 同架构,大量优化 |
| 核心机制 | Self-Attention | Self-Attention + MoE(混合专家) |
| 上下文长度 | 4K~32K | 200K~2M+ |
| 推理能力 | 基础逻辑 | 思维链 + Test-Time Compute |
| 模型大小 | 70B~175B | 各有选择(7B 也能很强) |
七、推荐进一步阅读
- Google ML Crash Course - Transformer(官方教程,图文并茂)
- Andrej Karpathy - Let’s build GPT from scratch(视频,手把手写代码)
- The Illustrated Transformer - Jay Alammar(经典图解)
参考来源: