大语言模型是怎么工作的?

大语言模型工作原理深度解析:从Transformer架构到预训练、微调、推理的完整技术链路。

A
AGISeed Team
AGISeed 作者

大语言模型是怎么工作的?通俗解读

编者按:“GPT 到底是怎么理解我说话,还能回答得这么准的?“这个问题可能是 AI 领域最常被问到的问题。这篇文章基于 Google Machine Learning Crash Course 和云原生社区的最新解读,用”无数学公式 + 全流程图解”的方式,把 Transformer 架构、注意力机制讲清楚。


一、先颠覆你的认知

所有大语言模型,本质上只干一件事:猜下一个字。

你没看错。GPT-5、Claude 4、Gemini 2.5——这些看起来无所不能的 AI,本质都是超级文字接龙选手

那为什么”猜下一个字”能猜出智能?答案藏在两件事里:

  1. 它读过的东西足够多(整个互联网的文本)
  2. 它猜的方式足够聪明(Transformer + 注意力机制)

二、从”猜”到”智能”的三层进化

%%{init: {'theme': 'dark', 'themeVariables': {'primaryColor': '#4a9eff', 'lineColor': '#888'}}}%%
graph TB
    subgraph "第一层:统计猜词"
        A["输入:I love"] --> B["查概率表"]
        B --> C["you: 23%<br/>it: 8%<br/>..." ]
    end
    subgraph "第二层:神经网络"
        D["输入:I love"] --> E["神经网络计算"]
        E --> F["you: 85%<br/>coffee: 12%<br/>..."]
    end
    subgraph "第三层:Transformer + 注意力"
        G["输入:I love ... in the morning"] --> H["注意力机制"]
        H --> I["coffee: 91%<br/>(模型理解了上下文)"]
    end
    
    A -.->|"太简单了<br/>记不住上下文"| D
    D -.->|"聪明了<br/>但长句还是不行"| G
    
    style H fill:#e74c3c,color:#fff

三、Transformer 架构:LLM 的核心引擎

2017 年 Google 发表论文《Attention Is All You Need》,提出了 Transformer 架构。今天所有主流 LLM(GPT、Claude、DeepSeek、Llama)都是它的后代。

四个关键步骤

%%{init: {'theme': 'dark', 'themeVariables': {'primaryColor': '#4a9eff', 'lineColor': '#888', 'textColor': '#fff'}}}%%
flowchart LR
    A["📝 输入文本<br/>I love AI"] --> B["✂️ 分词<br/>Tokenization"]
    B --> C["🔢 Embedding<br/>文字→数字向量"]
    C --> D["🎯 注意力机制<br/>Self-Attention"]
    D --> E["⚙️ FFN 前馈网络<br/>进一步计算"]
    E --> F{"结束?"}
    F -->|否| D
    F -->|是| G["📤 输出预测<br/>下一个 Token"]
    
    style D fill:#e74c3c,color:#fff
    style G fill:#2ecc71,color:#fff

步骤 1:分词(Tokenization)

"I love AI" → ["I", " love", " AI"]  (3 个 Token)

模型有一个”词汇表”(由 BPE 算法从大量语料中学来),每个 Token 都有唯一编号。

步骤 2:Embedding(词嵌入)

"AI" → [0.32, -0.17, 0.88, ..., 0.05]  (通常 1024~4096 维向量)
"机器学习" → [0.29, -0.15, 0.82, ..., 0.09]  (含义相似,向量也接近)

步骤 3:注意力机制(核心步骤)

这是 LLM 最聪明的地方——它会”看上下文”。

输入:"The cat sat on the ___."
      
注意力机制会:
1. 计算每个词与空位的"关联分"
   "cat" → 高(主语)"sat" → 高(动词)"on" → 中(介词)"the" → 低
2. 根据关联分加权组合所有词的信息
3. 综合判断:空位应该是 "mat"(垫子)

多头注意力:同时从多个角度关注(语法、语义、逻辑),就像一个人同时从不同角度分析问题。

步骤 4:多层堆叠

一个 Transformer 有几十到上百层。浅层学基础语法和拼写,深层学逻辑推理和主题理解


四、完整的训练流程

%%{init: {'theme': 'dark', 'themeVariables': {'primaryColor': '#4a9eff', 'lineColor': '#888'}}}%%
flowchart TB
    subgraph Phase1["阶段 1:预训练(Pre-training)"]
        A["🌐 海量互联网文本<br/>(数万亿 Token)"] --> B["自监督学习<br/>AI 自己填空/猜下一个字"]
        B --> C["基础模型 (Base Model)<br/>什么都懂但不会对话"]
    end
    subgraph Phase2["阶段 2:监督微调(SFT)"]
        D["📋 人工标注数据集<br/>(问题→标准答案)"] --> E["教模型按指令回答"]
    end
    subgraph Phase3["阶段 3:RLHF<br/>人类反馈强化学习"]
        F["👥 标注员打分<br/>(这个回答好/不好)"] --> G["让模型学会<br/>什么答案人类喜欢"]
    end
    
    C --> Phase2
    Phase2 --> Phase3
    Phase3 --> H["✅ 最终模型<br/>能对话/听话/安全"]
    
    style Phase3 fill:#e74c3c,color:#fff

五、解码器只有 Transformer(Decoder-only)

当前主流 LLM(GPT、Claude、DeepSeek)只用了 Transformer 的解码器部分,专注于”生成下一个 Token”。这就像一个人只练了”说话”,没练”听力”——但够用了。


六、2026 年的架构演进

特性2023 年2026 年
标准架构Decoder-only Transformer同架构,大量优化
核心机制Self-AttentionSelf-Attention + MoE(混合专家)
上下文长度4K~32K200K~2M+
推理能力基础逻辑思维链 + Test-Time Compute
模型大小70B~175B各有选择(7B 也能很强)

七、推荐进一步阅读


参考来源

相关文章

大模型与架构

大模型深度对比 2026

2026年大模型深度对比:GPT-4o、Claude 3.5、Gemini 2.0、Llama 3等主流模型性能、价格、适用场景全面评测。

阅读更多
大模型与架构

Prompt Engineering 技巧大全

Prompt Engineering技巧大全:链式思考、少样本学习、角色设定等高级提示工程方法论。

阅读更多