LLM · 算法演进

LLM 算法演进路线

从 N-gram 到 Transformer、从 GPT-3 到 o1 / R1,一张按时间展开的大语言模型算法地图:每章带介绍、该回答的问题,以及关键模型、论文、技术和工具。

01

语言模型前史

1948 – 2013

深度学习之前,语言模型的标准范式是 N-gram + 平滑(Kneser-Ney、Good-Turing):看前 n-1 个词预测第 n 个词。这套方法算得快、可解释,但有两大硬伤——维度灾难(vocabulary^n 空间)和上下文窗口短(n=4 以上统计极度稀疏)。2003 年 Bengio 提出 Neural Probabilistic Language Model,把词映射到连续向量空间;2013 年 Mikolov 的 word2vec 把这套思路工程化,让词向量成为 NLP 基础组件。这一阶段奠定的核心思想——分布式表示(distributed representation)——是后来一切发展的地基。

学完后你应该能回答

  1. N-gram 模型的概率是怎么算的?为什么 Kneser-Ney 平滑比 Laplace 平滑更常用?
  2. Bengio 2003 的 Neural Probabilistic Language Model 相比 N-gram 最本质的创新是什么?
  3. word2vec 的 CBOW 和 Skip-gram 在训练目标上有什么差异?
  4. Negative sampling 和 Hierarchical Softmax 各自解决了什么计算问题?
  5. GloVe 和 word2vec 的训练目标哲学有什么差别?
  6. 词向量的线性结构(king − man + woman ≈ queen)为什么会出现?
  7. 词向量的根本局限是什么?为什么同一个 "bank" 不能同时表示银行和河岸?
  8. FastText 相比 word2vec 加入了什么,对 OOV(未登录词)为什么更友好?
更多问题 (2)
  1. 分布式假说 "You shall know a word by the company it keeps" 的哲学来源?
  2. TF-IDF、LSA、LDA 这些传统方法在今天还有什么价值?

关键技术

  • 统计语言模型的标准范式,Kneser-Ney 平滑是 30 年的工业标配。

  • 把词映射到稠密向量空间,是整个现代 NLP 的起点。

  • Mikolov 的两个简化模型(CBOW、Skip-gram)把词向量做成能工业化训练的工具。

  • Negative sampling

    把 softmax 替换成二分类,Skip-gram 训练从 O(V) 降到 O(k)。

  • 基于全局共现矩阵的词向量方法,和 word2vec 互补。

  • Facebook 的子词(character n-gram)词向量,对形态丰富的语言和 OOV 都更友好。

  • TF-IDF / LSA / LDA

    更老的文本表示方法,今天在信息检索和文档聚类仍有一席之地。

关键论文

代表模型与工具

延伸阅读

02

RNN 时代

1997 – 2017

词向量解决了词级表示,但语言是序列问题——一个词的意义依赖上下文。循环神经网络(RNN)通过在时间维度展开同一组权重来处理变长序列,但梯度消失让它很难学到长距离依赖。LSTM(Hochreiter 1997)用门控机制让信息能在长序列里传递;GRU(2014)是更轻量的变种。2014 年 Sutskever 提出 Seq2Seq,把 encoder-decoder 架构带进机器翻译;同年 Bahdanau 引入注意力机制(attention),让解码时能回看输入的任意位置——这一步直接孕育了后来的 Transformer。

学完后你应该能回答

  1. RNN 的梯度消失 / 梯度爆炸本质是什么?BPTT 是怎么做的?
  2. LSTM 的三个门(forget / input / output)分别控制什么?
  3. GRU 相比 LSTM 少了什么?在什么场景性能差别可以忽略?
  4. Seq2Seq 的 encoder-decoder 架构解决了翻译场景下的什么难题?
  5. Bahdanau attention 和 Luong attention 的差别?
  6. 为什么 RNN 类模型难以并行训练?这对工业部署意味着什么?
  7. Teacher forcing 和曝光偏差(exposure bias)是什么关系?
  8. ConvS2S(Facebook 2017)相比 RNN Seq2Seq 的优势在哪?为什么没成主流?
更多问题 (2)
  1. Beam search 的 width 选择对翻译质量影响多大?
  2. ELMo 为什么被称为"过渡形态"?它用的是什么架构?

关键模型

  • 最原始的循环结构,实际训练效果受制于梯度消失。

  • Hochreiter & Schmidhuber 1997 的开山论文,门控 + 细胞状态(cell state)是关键。

  • Cho 2014 提出,把 LSTM 的三门合并成两门,参数更少、训练更快。

  • Sutskever 2014 的 encoder-decoder 翻译框架,是现代生成式模型的骨架。

  • 让 decoder 按需回看 encoder 任意位置,直接铺垫了 Transformer。

  • Facebook 2017 用 CNN 做 Seq2Seq,比 RNN 并行化好但很快被 Transformer 盖过。

  • 双向 LSTM 做 contextual embedding,是 pretrain 思想的早期工业化实现。

关键论文

工具

  • PyTorch / TensorFlow

    早期 RNN 模型的主力实现框架;今天仍是教学起点。

  • 开源神经机器翻译框架,RNN 时代的工业选择。

  • Facebook 的 Seq2Seq 工具箱,后来扩展到 Transformer。

  • torchtext / AllenNLP

    围绕 PyTorch 生态的数据加载和模型组件。

延伸阅读

03

Transformer 与预训练时代

2017 – 2020

2017 年 Google 的《Attention is All You Need》把 Transformer 架构带进世界:只用 self-attention 替代 RNN/CNN,实现端到端并行。核心创新:multi-head self-attention、位置编码、残差连接 + LayerNorm。2018 年 GPT-1 和 BERT 几乎同期:GPT 走自回归生成路线(decoder-only),BERT 走掩码填空(encoder-only,MLM)。T5(2019)把所有 NLP 任务都重新包装成 text-to-text。这段时期的大趋势是「预训练 + 微调」,数据和算力取代了任务特定架构。

学完后你应该能回答

  1. Self-attention 的 Q / K / V 各起什么作用?复杂度是 O(n²) 还是 O(n·d)?
  2. Multi-head 相比单头的收益在哪?为什么通常选 8 / 16 / 32 头?
  3. 绝对位置编码(sinusoidal) vs 相对位置编码 vs RoPE 的动机差别?
  4. BERT 的 MLM 为什么要 80% mask / 10% replace / 10% unchanged?
  5. GPT 的 next-token prediction 比 BERT 的 MLM 强在哪?弱在哪?
  6. Encoder-only / Decoder-only / Encoder-Decoder 三种架构各适合什么任务?
  7. T5 把所有 NLP 任务文本到文本化的做法为什么影响深远?
  8. BPE / WordPiece / SentencePiece 三种 tokenizer 的区别?
更多问题 (2)
  1. Post-LN vs Pre-LN 对训练稳定性影响有多大?
  2. 为什么 Transformer 在视觉(ViT)、语音(Whisper)上也能打?

关键架构

  • Vaswani 2017 的原始论文,现代 LLM 的共同祖先。

  • Google 2018 的 encoder-only 预训练模型,MLM 目标。

  • OpenAI 2018 的 decoder-only 预训练 + 微调范式的首次确立。

  • Google 2019 的 text-to-text 框架,把所有 NLP 任务统一成文本生成。

  • FAIR 优化 BERT 的训练配方:更多数据、更长时间、去掉 NSP。

  • 结合 AR 和 AE 的 Permutation LM,理论优雅但工程代价高。

  • FAIR 的 encoder-decoder 预训练模型,noise → denoising 目标。

关键机制

  • 并行算多个 "视角" 的 attention,是 Transformer 的计算核心。

  • Position encoding

    sinusoidal(原论文)、learned、相对位置、RoPE——表达序列顺序的核心手段。

  • Transformer 稳定训练的关键组件;Pre-LN vs Post-LN 的选择影响深远。

  • Masked Language Modeling

    BERT 的预训练目标,随机 mask 部分 token 让模型填空。

  • Next-token prediction

    GPT 系列的预训练目标,也是所有现代生成式 LLM 的基础。

  • 把文本切成子词的三种主流算法,决定 vocab 和 encoding 效率。

工具

延伸阅读

04

Scaling Laws:从 GPT-2 到 GPT-3

2019 – 2022

2019 年 GPT-2 把 Transformer 放大到 1.5B 参数,展示了 zero-shot 能力——模型能用自然语言提示直接完成任务,不需要微调。2020 年 GPT-3 放大到 175B,发现 few-shot in-context learning:给几个示例就能学会新任务。同年 Kaplan 的《Scaling Laws for Neural Language Models》证明 loss 随 compute / data / params 呈幂律下降。2022 年 DeepMind 的 Chinchilla 修正了 Kaplan 的结论——在固定 compute 下 data 应该和 params 同比例放大。这一套规律决定了后续所有大模型的资源分配。

学完后你应该能回答

  1. GPT-2 的 1.5B vs GPT-3 的 175B 之间,能力跃迁的关键差异是什么?
  2. Emergent abilities 有哪些?分别在什么 scale 才出现?
  3. Kaplan Scaling Laws 的三条幂律是怎么推导的?
  4. Chinchilla 发现 Kaplan 结论里哪个假设是错的?它给出的新配比是什么?
  5. 175B GPT-3 的训练成本(GPU-hour、电力)大约多少?
  6. In-context learning 为什么能 work?它和真正的 fine-tuning 差别在哪?
  7. Prompt engineering 从什么时候开始成为一门"手艺"?
  8. 开源 GPT-2 vs 闭源 GPT-3 的生态路径差别?
更多问题 (2)
  1. 为什么 Chinchilla 的发现催生了 LLaMA 这类"参数少但数据足"的模型?
  2. Compute 作为元资源,怎么决定了 AI 产业的竞争格局?

代表模型

关键论文

训练系统

延伸阅读

05

对齐:RLHF 与指令学习

2022 – 2024

预训练模型能接话,但不一定"有用"或"安全"。2022 年 InstructGPT 把 RLHF(Reinforcement Learning from Human Feedback)做工业化:第一步在 SFT 数据集上微调、第二步训练奖励模型(reward model)、第三步用 PPO 强化学习优化。同年 11 月 ChatGPT 让大众第一次体验到对齐模型的差别。2023 年起业界探索更便宜的替代:Anthropic 的 Constitutional AI 让模型自我批判;DPO(Direct Preference Optimization)砍掉 reward model 直接优化偏好;SimPO、KTO、IPO 继续简化。2024 年起 RLAIF(AI feedback 取代 human feedback)让数据瓶颈大幅缓解。

学完后你应该能回答

  1. RLHF 三步走具体在做什么?PPO 在第三步起什么作用?
  2. Reward model 的训练数据(pairwise preferences)怎么收集?标注员怎么选?
  3. 为什么说 RLHF 比纯监督微调更有效?纯 SFT 的上限在哪?
  4. InstructGPT 相比原始 GPT-3 提升最大的是哪个维度?
  5. Constitutional AI 的 "self-critique" 流程具体是什么?
  6. DPO 相比 PPO 简化了什么?性能差多少?
  7. Reward hacking 在 RLHF 里长什么样?怎么缓解?
  8. SFT / RLHF / DPO 各自的训练数据量级?
更多问题 (2)
  1. RLAIF 相比 RLHF 的关键创新是什么?
  2. 当前前沿对齐方法:ReST / SimPO / KTO / IPO 各自的定位?

核心技术

  • Supervised Fine-Tuning (SFT)

    用指令-响应对监督微调,是所有后续对齐的第一步。

  • Reward Model (RM)

    输入回答对,输出偏好得分。RLHF 的 "referee"。

  • InstructGPT 使用的 RL 算法,核心是 clipped objective 限制更新幅度。

  • 用闭式解替代 RL,一个交叉熵 loss 解决偏好优化。

  • Anthropic 的自我批判框架,用 AI 反馈代替部分人类标注。

  • SimPO / KTO / IPO

    2024 年一批 DPO 变种,继续简化和修正 loss 形式。

关键论文

代表对齐模型

延伸阅读

06

高效化:MoE、量化、长上下文

2021 – 2025

模型越大越聪明,但训练和推理成本也水涨船高。三条路径压缩成本:(1)稀疏激活(MoE, Mixture of Experts)让每个 token 只用一小部分参数;(2)量化(INT8 / INT4 / FP8)降低权重存储和计算精度;(3)注意力工程优化让长上下文可行。Mixtral 8x7B(Mistral 2023)证明 MoE 在开源界可行;GPT-4 据推测也是 MoE 架构;Gemini 1.5 Pro 用 ring attention 撑到 1M tokens;DeepSeek-V3 同时用 MoE + MLA + FP8,是目前最系统的效率案例。

学完后你应该能回答

  1. MoE 架构中 top-k routing 怎么选 expert?load imbalance 问题怎么解?
  2. GShard / Switch Transformer / Mixtral 的 MoE 实现差别?
  3. INT8 / INT4 量化会损失多少精度?AWQ、GPTQ、SmoothQuant 思路有什么不同?
  4. FP8 训练相比 FP16 / BF16 在 H100 / Blackwell 上带来多少加速?
  5. LoRA 为什么只训练低秩矩阵就能有效?QLoRA 的量化怎么加上去的?
  6. FlashAttention 是怎么把 attention 的 HBM 访问降下来的?算法上变了吗?
  7. PagedAttention(vLLM)把 KV cache 管理改成类似 OS 分页,主要好处是什么?
  8. Ring attention / Infini-attention / Mamba 分别怎么突破 context length 限制?
更多问题 (2)
  1. Speculative decoding 的 Medusa / EAGLE / Lookahead 加速比上限是什么?
  2. MLA(Multi-head Latent Attention)在 DeepSeek-V2/V3 里怎么减少 KV cache?

核心技术

关键论文

代表模型

延伸阅读

07

多模态与推理

2021 – 2025

2023-2024 年两个方向并行发展:多模态和推理。多模态从 CLIP(2021)的跨模态对齐开始,经 Flamingo(2022)的图文混合输入、GPT-4V(2023)的原生视觉、Gemini(2023)同时处理文本图像音频视频。推理能力上,Chain-of-Thought prompting(Wei 2022)先发现"让模型 step-by-step 思考"能涨分;2024 年 9 月 OpenAI o1 把「思考」变成模型训练目标(RL on reasoning),在数学和代码上大幅提升;2025 年 1 月 DeepSeek R1 证明这条路径开源可复现。当前前沿正快速向"推理 + 多模态"融合演进。

学完后你应该能回答

  1. CLIP 的对比学习怎么对齐图像和文本?它的 zero-shot classification 原理?
  2. Flamingo / BLIP-2 / LLaVA 在视觉-语言融合上用了什么不同思路?
  3. GPT-4V 的原生视觉 vs 外挂 vision encoder,工程差别在哪?
  4. Whisper 的音频 tokenization 怎么做?
  5. Chain-of-Thought prompting 为什么能大幅提升推理?它只对大模型有效吗?
  6. Self-consistency 相比 greedy decoding 提升来自哪里?
  7. Tree of Thoughts、Graph of Thoughts 和 CoT 的关系是什么?
  8. OpenAI o1 的 "RL on reasoning" 训练的是什么信号?
更多问题 (2)
  1. DeepSeek R1 的 GRPO 相比 PPO 做了什么简化?
  2. Test-time compute scaling 和 pretrain scaling 的本质差别是什么?

多模态模型

推理模型

关键论文

延伸阅读

08

前沿方向:Agents、SSM、世界模型

2024 –

2024 年起 LLM 研究的重心向"超越 Transformer"和"变成 Agent"两个方向分化。架构上,Mamba / State Space Models 探索线性复杂度的序列建模,RetNet、Hyena、RWKV、Jamba 都在尝试替代 quadratic attention。Agent 方向上,Anthropic 的 Computer Use(2024)、OpenAI Operator(2025)、Claude Agents(2025)让模型直接操作浏览器和操作系统;Tool use、long-term memory、multi-agent 成为产品主题。World models(Genie、Sora、Cosmos)把视频和物理仿真纳入大模型范畴。整个领域在 2025-2026 是最不确定也最快变化的。

学完后你应该能回答

  1. Mamba / SSM 为什么说是线性复杂度?它的"选择性"是什么?
  2. Mamba 能 scale 到 GPT-4 规模吗?目前最大的 SSM 模型是什么?
  3. RWKV / Hyena / RetNet / Jamba 的定位差别?
  4. ReAct 框架如何把推理和行动交替?它为什么是 Agent 的起点?
  5. MCP(Model Context Protocol)和 Function Calling / Tool Use 是什么关系?
  6. Computer use / Browser use 类 agents 的主要技术难点?
  7. 多 agent 协作(AutoGen、CrewAI)在什么场景能 beat 单 agent?
  8. Sora / Genie / Cosmos 这类 world model 的核心机制是什么?
更多问题 (2)
  1. Mechanistic Interpretability 目前能解释 LLM 的哪些行为?
  2. "data wall"(公开数据耗尽)对 scaling 的影响:合成数据能解决吗?

新架构

Agent 框架

World models & 视频生成

前沿研究方向

  • Chris Olah 主持的 Transformer Circuits 系列,尝试把 LLM 打开看。

  • "思考更久" 替代 "模型更大" 的新 scaling 曲线。

  • Self-play / Synthetic Data

    当公开数据接近枯竭时,用模型自己生成数据训练自己是热门路线。

  • Multi-agent Systems

    多个专精模型 / agent 协作,已在代码、科研、谈判等场景显示优势。

  • Embodied / Robotics Foundation Models

    RT-2、OpenVLA、Gemini Robotics 把 LLM 带到机器人领域。

延伸阅读