LLM 算法演进路线

01

语言模型前史

1948 – 2013

深度学习之前，语言模型的标准范式是 N-gram + 平滑（Kneser-Ney、Good-Turing）：看前 n-1 个词预测第 n 个词。这套方法算得快、可解释，但有两大硬伤——维度灾难（vocabulary^n 空间）和上下文窗口短（n=4 以上统计极度稀疏）。2003 年 Bengio 提出 Neural Probabilistic Language Model，把词映射到连续向量空间；2013 年 Mikolov 的 word2vec 把这套思路工程化，让词向量成为 NLP 基础组件。这一阶段奠定的核心思想——分布式表示（distributed representation）——是后来一切发展的地基。

学完后你应该能回答

N-gram 模型的概率是怎么算的？为什么 Kneser-Ney 平滑比 Laplace 平滑更常用？
Bengio 2003 的 Neural Probabilistic Language Model 相比 N-gram 最本质的创新是什么？
word2vec 的 CBOW 和 Skip-gram 在训练目标上有什么差异？
Negative sampling 和 Hierarchical Softmax 各自解决了什么计算问题？
GloVe 和 word2vec 的训练目标哲学有什么差别？
词向量的线性结构（king − man + woman ≈ queen）为什么会出现？
词向量的根本局限是什么？为什么同一个 "bank" 不能同时表示银行和河岸？
FastText 相比 word2vec 加入了什么，对 OOV（未登录词）为什么更友好？

更多问题 (2)

分布式假说 "You shall know a word by the company it keeps" 的哲学来源？
TF-IDF、LSA、LDA 这些传统方法在今天还有什么价值？

关键技术

N-gram + 平滑

统计语言模型的标准范式，Kneser-Ney 平滑是 30 年的工业标配。
分布式表示（Distributed Representation）

把词映射到稠密向量空间，是整个现代 NLP 的起点。
word2vec

Mikolov 的两个简化模型（CBOW、Skip-gram）把词向量做成能工业化训练的工具。
Negative sampling

把 softmax 替换成二分类，Skip-gram 训练从 O(V) 降到 O(k)。
GloVe

基于全局共现矩阵的词向量方法，和 word2vec 互补。
FastText

Facebook 的子词（character n-gram）词向量，对形态丰富的语言和 OOV 都更友好。
TF-IDF / LSA / LDA

更老的文本表示方法，今天在信息检索和文档聚类仍有一席之地。

关键论文

A Neural Probabilistic Language Model (Bengio 2003)

用 MLP 做语言模型的开山之作，明确了"学词向量"这件事。
Efficient Estimation of Word Representations (Mikolov 2013)

word2vec 第一篇：CBOW 和 Skip-gram 的原始论文。
Distributed Representations of Words and Phrases (Mikolov 2013)

第二篇：引入 negative sampling、hierarchical softmax、subsampling。
GloVe: Global Vectors for Word Representation (Pennington 2014)

斯坦福的 GloVe 论文。
Enriching Word Vectors with Subword Information (Bojanowski 2017)

FastText 核心论文。

代表模型与工具

word2vec (Google C 版)

原始 C 实现，训练大规模语料仍很快。
gensim

Python 里做 word2vec、LDA、LSI 最方便的库。
spaCy

工业级 NLP 流水线，预训练词向量和 pipeline 都很好用。
NLTK

教学级 NLP 工具箱，N-gram、HMM、PCFG 都在里面。

延伸阅读

Jurafsky《Speech and Language Processing》

NLP 教科书标杆，前几章讲 N-gram 和词向量最清楚。
CS224N 讲义（词向量部分）

斯坦福 NLP 课的前三讲专门讲词向量。
Chris Olah "Deep Learning, NLP, and Representations"

一篇博客把分布式表示的核心直觉讲透。

02

RNN 时代

1997 – 2017

词向量解决了词级表示，但语言是序列问题——一个词的意义依赖上下文。循环神经网络（RNN）通过在时间维度展开同一组权重来处理变长序列，但梯度消失让它很难学到长距离依赖。LSTM（Hochreiter 1997）用门控机制让信息能在长序列里传递；GRU（2014）是更轻量的变种。2014 年 Sutskever 提出 Seq2Seq，把 encoder-decoder 架构带进机器翻译；同年 Bahdanau 引入注意力机制（attention），让解码时能回看输入的任意位置——这一步直接孕育了后来的 Transformer。

学完后你应该能回答

RNN 的梯度消失 / 梯度爆炸本质是什么？BPTT 是怎么做的？
LSTM 的三个门（forget / input / output）分别控制什么？
GRU 相比 LSTM 少了什么？在什么场景性能差别可以忽略？
Seq2Seq 的 encoder-decoder 架构解决了翻译场景下的什么难题？
Bahdanau attention 和 Luong attention 的差别？
为什么 RNN 类模型难以并行训练？这对工业部署意味着什么？
Teacher forcing 和曝光偏差（exposure bias）是什么关系？
ConvS2S（Facebook 2017）相比 RNN Seq2Seq 的优势在哪？为什么没成主流？

更多问题 (2)

Beam search 的 width 选择对翻译质量影响多大？
ELMo 为什么被称为"过渡形态"？它用的是什么架构？

关键模型

RNN

最原始的循环结构，实际训练效果受制于梯度消失。
LSTM

Hochreiter & Schmidhuber 1997 的开山论文，门控 + 细胞状态（cell state）是关键。
GRU

Cho 2014 提出，把 LSTM 的三门合并成两门，参数更少、训练更快。
Seq2Seq

Sutskever 2014 的 encoder-decoder 翻译框架，是现代生成式模型的骨架。
Attention（Bahdanau）

让 decoder 按需回看 encoder 任意位置，直接铺垫了 Transformer。
ConvS2S

Facebook 2017 用 CNN 做 Seq2Seq，比 RNN 并行化好但很快被 Transformer 盖过。
ELMo

双向 LSTM 做 contextual embedding，是 pretrain 思想的早期工业化实现。

关键论文

Long Short-Term Memory (Hochreiter 1997)

门控网络治疗梯度消失的原始论文。
Sequence to Sequence Learning (Sutskever 2014)

Google 把 encoder-decoder 成功用在机器翻译。
NMT by Jointly Learning to Align and Translate (Bahdanau 2014)

attention 的原始提出。
Effective Approaches to Attention-based NMT (Luong 2015)

Luong 式 attention（global / local）和 Bahdanau 式的对比。
Deep Contextualized Word Representations (Peters 2018)

ELMo 论文，大规模预训练在 NLP 里初露端倪。

工具

PyTorch / TensorFlow

早期 RNN 模型的主力实现框架；今天仍是教学起点。
OpenNMT

开源神经机器翻译框架，RNN 时代的工业选择。
Fairseq

Facebook 的 Seq2Seq 工具箱，后来扩展到 Transformer。
torchtext / AllenNLP

围绕 PyTorch 生态的数据加载和模型组件。

延伸阅读

Karpathy "The Unreasonable Effectiveness of RNNs"

一篇博客让几百万人理解 character-level RNN 为什么惊艳。
Chris Olah "Understanding LSTMs"

把 LSTM 门控结构画得最清楚的博客。
CS224N RNN 讲义

斯坦福 NLP 课里关于 RNN、LSTM、注意力的标准讲义。

03

Transformer 与预训练时代

2017 – 2020

2017 年 Google 的《Attention is All You Need》把 Transformer 架构带进世界：只用 self-attention 替代 RNN/CNN，实现端到端并行。核心创新：multi-head self-attention、位置编码、残差连接 + LayerNorm。2018 年 GPT-1 和 BERT 几乎同期：GPT 走自回归生成路线（decoder-only），BERT 走掩码填空（encoder-only，MLM）。T5（2019）把所有 NLP 任务都重新包装成 text-to-text。这段时期的大趋势是「预训练 + 微调」，数据和算力取代了任务特定架构。

学完后你应该能回答

Self-attention 的 Q / K / V 各起什么作用？复杂度是 O(n²) 还是 O(n·d)？
Multi-head 相比单头的收益在哪？为什么通常选 8 / 16 / 32 头？
绝对位置编码（sinusoidal） vs 相对位置编码 vs RoPE 的动机差别？
BERT 的 MLM 为什么要 80% mask / 10% replace / 10% unchanged？
GPT 的 next-token prediction 比 BERT 的 MLM 强在哪？弱在哪？
Encoder-only / Decoder-only / Encoder-Decoder 三种架构各适合什么任务？
T5 把所有 NLP 任务文本到文本化的做法为什么影响深远？
BPE / WordPiece / SentencePiece 三种 tokenizer 的区别？

更多问题 (2)

Post-LN vs Pre-LN 对训练稳定性影响有多大？
为什么 Transformer 在视觉（ViT）、语音（Whisper）上也能打？

关键架构

Transformer

Vaswani 2017 的原始论文，现代 LLM 的共同祖先。
BERT

Google 2018 的 encoder-only 预训练模型，MLM 目标。
GPT-1

OpenAI 2018 的 decoder-only 预训练 + 微调范式的首次确立。
T5

Google 2019 的 text-to-text 框架，把所有 NLP 任务统一成文本生成。
RoBERTa

FAIR 优化 BERT 的训练配方：更多数据、更长时间、去掉 NSP。
XLNet

结合 AR 和 AE 的 Permutation LM，理论优雅但工程代价高。
BART

FAIR 的 encoder-decoder 预训练模型，noise → denoising 目标。

关键机制

Multi-head self-attention

并行算多个 "视角" 的 attention，是 Transformer 的计算核心。
Position encoding

sinusoidal（原论文）、learned、相对位置、RoPE——表达序列顺序的核心手段。
Layer Normalization

Transformer 稳定训练的关键组件；Pre-LN vs Post-LN 的选择影响深远。
Masked Language Modeling

BERT 的预训练目标，随机 mask 部分 token 让模型填空。
Next-token prediction

GPT 系列的预训练目标，也是所有现代生成式 LLM 的基础。
Tokenization（BPE / WordPiece / SentencePiece）

把文本切成子词的三种主流算法，决定 vocab 和 encoding 效率。

工具

HuggingFace Transformers

事实标准的预训练模型库，几乎所有 Transformer 模型都有官方移植。
Fairseq

Meta 的 Seq2Seq / Transformer 训练框架，学术圈常用。
Tensor2Tensor

Google 原始 Transformer 的参考实现，现在主要作为历史档案。
Karpathy nanoGPT

~300 行 PyTorch 的极简 GPT 实现，理解 Transformer 细节的最佳教材。

延伸阅读

Jay Alammar "The Illustrated Transformer"

最受欢迎的 Transformer 图解博客。
Jay Alammar "The Illustrated BERT / GPT-2"

BERT 和 GPT 的图解版本。
Lil'Log "Transformer Family"

Lilian Weng 的 Transformer 变体综述。
CS224N Transformer 讲义

斯坦福 NLP 课对 Transformer 的系统讲解。

04

Scaling Laws：从 GPT-2 到 GPT-3

2019 – 2022

2019 年 GPT-2 把 Transformer 放大到 1.5B 参数，展示了 zero-shot 能力——模型能用自然语言提示直接完成任务，不需要微调。2020 年 GPT-3 放大到 175B，发现 few-shot in-context learning：给几个示例就能学会新任务。同年 Kaplan 的《Scaling Laws for Neural Language Models》证明 loss 随 compute / data / params 呈幂律下降。2022 年 DeepMind 的 Chinchilla 修正了 Kaplan 的结论——在固定 compute 下 data 应该和 params 同比例放大。这一套规律决定了后续所有大模型的资源分配。

学完后你应该能回答

GPT-2 的 1.5B vs GPT-3 的 175B 之间，能力跃迁的关键差异是什么？
Emergent abilities 有哪些？分别在什么 scale 才出现？
Kaplan Scaling Laws 的三条幂律是怎么推导的？
Chinchilla 发现 Kaplan 结论里哪个假设是错的？它给出的新配比是什么？
175B GPT-3 的训练成本（GPU-hour、电力）大约多少？
In-context learning 为什么能 work？它和真正的 fine-tuning 差别在哪？
Prompt engineering 从什么时候开始成为一门"手艺"？
开源 GPT-2 vs 闭源 GPT-3 的生态路径差别？

更多问题 (2)

为什么 Chinchilla 的发现催生了 LLaMA 这类"参数少但数据足"的模型？
Compute 作为元资源，怎么决定了 AI 产业的竞争格局？

代表模型

GPT-2 (2019, 1.5B)

Zero-shot 展示了 pretrain 的力量，当时引发 "too dangerous to release" 争议。
Megatron-LM (2019, 8.3B)

NVIDIA 的大模型训练系统论文，Tensor Parallel 的奠基。
T5-11B (2019)

Google 在 T5 论文里训练的最大版本。
Turing-NLG (2020, 17B)

微软一度最大 LLM，训练用了 DeepSpeed。
GPT-3 (2020, 175B)

Few-shot in-context learning 正式登场，震惊整个 NLP 学界。
Jurassic-1 (2021, 178B)

AI21 的 GPT-3 同量级模型。
PaLM (2022, 540B)

Google 的 540B Pathways 训练模型，规模一度领先。
Chinchilla (2022, 70B)

DeepMind 的 compute-optimal 实验：同算力下 70B 打败 280B。

关键论文

Language Models are Unsupervised Multitask Learners (GPT-2, Radford 2019)

Zero-shot 范式的首次系统展示。
Scaling Laws for Neural Language Models (Kaplan 2020)

Compute / data / params 三大幂律的原始论文。
Language Models are Few-Shot Learners (GPT-3, Brown 2020)

Few-shot in-context learning 的经典论文。
Training Compute-Optimal LLMs (Chinchilla, Hoffmann 2022)

修正 Kaplan 的结论，给出新的 20 tokens / param 比例。
Emergent Abilities of LLMs (Wei 2022)

系统化记录了 scale 到某阈值后"突然涌现"的能力。

训练系统

Megatron-LM

NVIDIA 的大模型训练工具链，Tensor Parallel 的参考实现。
DeepSpeed

Microsoft 的训练优化库，ZeRO 优化器的主要实现。
GPT-NeoX

EleutherAI 的开源复现项目，第一代"民间大模型"。
Hugging Face Model Hub

模型和 checkpoint 的事实中心仓库。

延伸阅读

OpenAI Blog "GPT-3"

OpenAI 官方对 GPT-3 的介绍和早期应用案例。
OpenAI "AI and Compute" (2018)

"每 3.4 个月 AI 算力翻一倍"的原始分析。
Gwern on Scaling Hypothesis

对 scaling 现象最充分的外部论述，长但值得读。
Dwarkesh "The Scaling Era"

Dwarkesh Patel 的播客访谈，AI 研究者对 scaling 的直接讨论。

05

对齐：RLHF 与指令学习

2022 – 2024

预训练模型能接话，但不一定"有用"或"安全"。2022 年 InstructGPT 把 RLHF（Reinforcement Learning from Human Feedback）做工业化：第一步在 SFT 数据集上微调、第二步训练奖励模型（reward model）、第三步用 PPO 强化学习优化。同年 11 月 ChatGPT 让大众第一次体验到对齐模型的差别。2023 年起业界探索更便宜的替代：Anthropic 的 Constitutional AI 让模型自我批判；DPO（Direct Preference Optimization）砍掉 reward model 直接优化偏好；SimPO、KTO、IPO 继续简化。2024 年起 RLAIF（AI feedback 取代 human feedback）让数据瓶颈大幅缓解。

学完后你应该能回答

RLHF 三步走具体在做什么？PPO 在第三步起什么作用？
Reward model 的训练数据（pairwise preferences）怎么收集？标注员怎么选？
为什么说 RLHF 比纯监督微调更有效？纯 SFT 的上限在哪？
InstructGPT 相比原始 GPT-3 提升最大的是哪个维度？
Constitutional AI 的 "self-critique" 流程具体是什么？
DPO 相比 PPO 简化了什么？性能差多少？
Reward hacking 在 RLHF 里长什么样？怎么缓解？
SFT / RLHF / DPO 各自的训练数据量级？

更多问题 (2)

RLAIF 相比 RLHF 的关键创新是什么？
当前前沿对齐方法：ReST / SimPO / KTO / IPO 各自的定位？

核心技术

Supervised Fine-Tuning (SFT)

用指令-响应对监督微调，是所有后续对齐的第一步。
Reward Model (RM)

输入回答对，输出偏好得分。RLHF 的 "referee"。
PPO (Proximal Policy Optimization)

InstructGPT 使用的 RL 算法，核心是 clipped objective 限制更新幅度。
DPO (Direct Preference Optimization)

用闭式解替代 RL，一个交叉熵 loss 解决偏好优化。
Constitutional AI / RLAIF

Anthropic 的自我批判框架，用 AI 反馈代替部分人类标注。
SimPO / KTO / IPO

2024 年一批 DPO 变种，继续简化和修正 loss 形式。

关键论文

InstructGPT (Ouyang 2022)

RLHF 工业化的标志性论文，给出了三步走配方。
Constitutional AI (Bai 2022)

Anthropic 的对齐方法论，强调可解释的价值原则。
DPO (Rafailov 2023)

把 RL 换成一个监督 loss，是 2023 年最重要的对齐论文。
SimPO (Meng 2024)

DPO 的进一步简化，去掉 reference model。
KTO (Ethayarajh 2024)

基于 Kahneman-Tversky 前景理论的偏好学习。

代表对齐模型

InstructGPT / ChatGPT

把 GPT-3.5 变成对话伙伴的转折点。
GPT-4 / GPT-4 Turbo

OpenAI 的 flagship，多模态 + 对齐质量大幅提升。
Claude 系列（Anthropic）

Constitutional AI 和 RLHF 的结合，强调 helpful + harmless + honest。
Llama 2 Chat / Llama 3 Instruct

Meta 的开源对齐模型，RLHF 训练细节在论文里最公开。
DeepSeek Chat / R1

国内开源对齐模型代表，R1 把 RL on reasoning 推到开源前沿。

延伸阅读

OpenAI "Aligning language models"

OpenAI 官方对齐研究页面。
Anthropic Interpretability Blog

Anthropic 对齐和可解释性研究的第一手博客。
HuggingFace "Illustrating RLHF"

RLHF 科普博客中流传最广的一篇。
Lilian Weng "RLHF" posts

Lil'Log 的对齐篇，技术细节最全。

06

高效化：MoE、量化、长上下文

2021 – 2025

模型越大越聪明，但训练和推理成本也水涨船高。三条路径压缩成本：（1）稀疏激活（MoE, Mixture of Experts）让每个 token 只用一小部分参数；（2）量化（INT8 / INT4 / FP8）降低权重存储和计算精度；（3）注意力工程优化让长上下文可行。Mixtral 8x7B（Mistral 2023）证明 MoE 在开源界可行；GPT-4 据推测也是 MoE 架构；Gemini 1.5 Pro 用 ring attention 撑到 1M tokens；DeepSeek-V3 同时用 MoE + MLA + FP8，是目前最系统的效率案例。

学完后你应该能回答

MoE 架构中 top-k routing 怎么选 expert？load imbalance 问题怎么解？
GShard / Switch Transformer / Mixtral 的 MoE 实现差别？
INT8 / INT4 量化会损失多少精度？AWQ、GPTQ、SmoothQuant 思路有什么不同？
FP8 训练相比 FP16 / BF16 在 H100 / Blackwell 上带来多少加速？
LoRA 为什么只训练低秩矩阵就能有效？QLoRA 的量化怎么加上去的？
FlashAttention 是怎么把 attention 的 HBM 访问降下来的？算法上变了吗？
PagedAttention（vLLM）把 KV cache 管理改成类似 OS 分页，主要好处是什么？
Ring attention / Infini-attention / Mamba 分别怎么突破 context length 限制？

更多问题 (2)

Speculative decoding 的 Medusa / EAGLE / Lookahead 加速比上限是什么？
MLA（Multi-head Latent Attention）在 DeepSeek-V2/V3 里怎么减少 KV cache？

核心技术

Mixture of Experts (MoE)

Shazeer 2017 的稀疏门控专家层，是现代大模型效率的基础。
Switch Transformer

Google 的简化版 MoE，参数可到万亿级别。
Quantization (INT8 / INT4 / FP8)

让模型权重用 8-bit 或 4-bit 存储，推理成本下降一个数量级。
LoRA / QLoRA / DoRA

低秩适配让微调只需要训练 <1% 的参数。
FlashAttention

Tri Dao 的 IO-aware kernel，让 attention 在 HBM 上近似 O(n)。
PagedAttention (vLLM)

把 KV cache 当作虚拟内存分页管理，显存利用率从 20-40% 提升到 90%+。
GQA / MQA / MLA

减少 attention head 数或共享 KV 的优化，降低 KV cache 和带宽。
Speculative decoding

小模型起草 + 大模型验证，推理延迟下降 2-4x。

关键论文

Outrageously Large Neural Networks (Shazeer 2017)

第一代大规模 MoE 论文。
Switch Transformer (Fedus 2021)

Google 2021 把 MoE 做到 1.6T 参数。
LoRA (Hu 2021)

Low-Rank Adaptation 的开山论文。
FlashAttention (Dao 2022)

attention kernel 优化的标杆论文。
vLLM / PagedAttention (Kwon 2023)

KV cache 管理革命的原始论文。
Mixtral of Experts (Jiang 2024)

Mistral 的 8x7B MoE，开源 MoE 的里程碑。
DeepSeek-V3 Technical Report (2024)

MoE + MLA + FP8 同时运用的完整技术报告。

代表模型

Switch-C (1.6T, Google 2021)

最早的万亿参数 MoE 模型。
Mixtral 8x7B / 8x22B

Mistral 开源的 MoE，激活参数约 13B，推理效率接近 Llama-70B 水平。
DeepSeek-V2 / V3

国产开源旗舰，MLA + MoE 训练成本压到行业十分之一。
Gemini 1.5 Pro (long context)

Google 把 context 推到 1M tokens 的旗舰模型。
Qwen2.5 / Qwen2.5-Max

阿里开源 + 闭源的 MoE 系列，注重效率工程。

延伸阅读

Tri Dao 博客

FlashAttention 作者的技术博客。
vLLM 设计文档

PagedAttention 和 continuous batching 的权威说明。
DeepSpeed Blog

ZeRO、MoE、inference 工程的公开文档。
Chip Huyen "ML Interviews Book"

效率相关章节整理了大量工程 trade-off。

07

多模态与推理

2021 – 2025

2023-2024 年两个方向并行发展：多模态和推理。多模态从 CLIP（2021）的跨模态对齐开始，经 Flamingo（2022）的图文混合输入、GPT-4V（2023）的原生视觉、Gemini（2023）同时处理文本图像音频视频。推理能力上，Chain-of-Thought prompting（Wei 2022）先发现"让模型 step-by-step 思考"能涨分；2024 年 9 月 OpenAI o1 把「思考」变成模型训练目标（RL on reasoning），在数学和代码上大幅提升；2025 年 1 月 DeepSeek R1 证明这条路径开源可复现。当前前沿正快速向"推理 + 多模态"融合演进。

学完后你应该能回答

CLIP 的对比学习怎么对齐图像和文本？它的 zero-shot classification 原理？
Flamingo / BLIP-2 / LLaVA 在视觉-语言融合上用了什么不同思路？
GPT-4V 的原生视觉 vs 外挂 vision encoder，工程差别在哪？
Whisper 的音频 tokenization 怎么做？
Chain-of-Thought prompting 为什么能大幅提升推理？它只对大模型有效吗？
Self-consistency 相比 greedy decoding 提升来自哪里？
Tree of Thoughts、Graph of Thoughts 和 CoT 的关系是什么？
OpenAI o1 的 "RL on reasoning" 训练的是什么信号？

更多问题 (2)

DeepSeek R1 的 GRPO 相比 PPO 做了什么简化？
Test-time compute scaling 和 pretrain scaling 的本质差别是什么？

多模态模型

CLIP (OpenAI 2021)

图像-文本对比学习开启多模态时代，zero-shot classification 的 baseline。
Flamingo (DeepMind 2022)

把视觉 token 插入冻结的 LLM，实现 few-shot 视觉问答。
BLIP-2 (Salesforce 2023)

Q-Former 桥接 vision encoder 和 LLM，训练成本低。
GPT-4V / GPT-4o (OpenAI 2023-2024)

OpenAI 的多模态旗舰，GPT-4o 做到原生文本/音频/视觉。
Gemini 1.0 / 1.5 / 2 (Google 2023+)

Google 的原生多模态模型家族。
LLaVA (开源多模态)

Visual Instruction Tuning 的代表，开源社区的默认起点。
Qwen-VL / Qwen2.5-VL

阿里的开源多模态系列，追赶 GPT-4V 的主力之一。

推理模型

Chain-of-Thought (Wei 2022)

一行 "let's think step by step" 显著提升推理能力。
Self-Consistency (Wang 2022)

多次采样 + 多数投票，CoT 的强化版。
Tree of Thoughts (Yao 2023)

把 CoT 扩展成可搜索的思维树。
OpenAI o1 / o3 (2024-2025)

RL on reasoning 训练的模型，AIME / Codeforces 上接近专家水平。
DeepSeek R1 (2025)

开源首个复现 o1 级别推理的模型，GRPO 算法成为新的 RL 基线。
Claude Extended Thinking

Anthropic 在 Claude 3.7 / 4 上的 "显式思考" 能力。

关键论文

CLIP (Radford 2021)

多模态学习的开山之作。
Flamingo (Alayrac 2022)

Few-shot visual language model 的代表。
Chain-of-Thought Prompting (Wei 2022)

首次系统化的 step-by-step 推理研究。
Tree of Thoughts (Yao 2023)

CoT → ToT 的扩展。
DeepSeek-R1 (2025)

GRPO 训练、纯 RL 激活推理能力的开源典范。
Scaling Laws for Test-Time Compute (2024)

OpenAI 给出的 "推理阶段算力" 的 scaling law。

延伸阅读

OpenAI o1 system card

o1 的官方能力、安全、基准报告。
DeepSeek-R1 paper 全文

GRPO 和多阶段 RL 训练的完整细节。
Lil'Log "LLM-powered Autonomous Agents"

把 CoT、ToT、Agent 的关系讲清楚。
Simon Willison Weeknotes

多模态 + reasoning 的日常评测和观察，工程角度最清晰。

08

前沿方向：Agents、SSM、世界模型

2024 –

2024 年起 LLM 研究的重心向"超越 Transformer"和"变成 Agent"两个方向分化。架构上，Mamba / State Space Models 探索线性复杂度的序列建模，RetNet、Hyena、RWKV、Jamba 都在尝试替代 quadratic attention。Agent 方向上，Anthropic 的 Computer Use（2024）、OpenAI Operator（2025）、Claude Agents（2025）让模型直接操作浏览器和操作系统；Tool use、long-term memory、multi-agent 成为产品主题。World models（Genie、Sora、Cosmos）把视频和物理仿真纳入大模型范畴。整个领域在 2025-2026 是最不确定也最快变化的。

学完后你应该能回答

Mamba / SSM 为什么说是线性复杂度？它的"选择性"是什么？
Mamba 能 scale 到 GPT-4 规模吗？目前最大的 SSM 模型是什么？
RWKV / Hyena / RetNet / Jamba 的定位差别？
ReAct 框架如何把推理和行动交替？它为什么是 Agent 的起点？
MCP（Model Context Protocol）和 Function Calling / Tool Use 是什么关系？
Computer use / Browser use 类 agents 的主要技术难点？
多 agent 协作（AutoGen、CrewAI）在什么场景能 beat 单 agent？
Sora / Genie / Cosmos 这类 world model 的核心机制是什么？

更多问题 (2)

Mechanistic Interpretability 目前能解释 LLM 的哪些行为？
"data wall"（公开数据耗尽）对 scaling 的影响：合成数据能解决吗？

新架构

Mamba (Gu & Dao 2023)

选择性 SSM，线性复杂度 + 近似 Transformer 性能，是当前最有力的挑战者。
RWKV

RNN 式训练 + Transformer 式表现，社区驱动的开源项目。
RetNet (MSR 2023)

Retentive Network，微软提出的 attention 替代品。
Hyena (Poli 2023)

用隐式长卷积替代 attention，标志着 "sub-quadratic" 浪潮。
Jamba (AI21 2024)

Transformer + Mamba 的 hybrid，大 context 上有明显优势。

Agent 框架

ReAct (Yao 2022)

Reasoning + Acting 交替，是 Agent 设计最常用的骨架。
Toolformer (Schick 2023)

让模型学会自己决定什么时候调用 API 的开山论文。
AutoGPT / BabyAGI

2023 年引爆 Agent 想象力的社区项目。
Model Context Protocol (MCP)

Anthropic 主导的开放协议，把工具接入标准化。
AutoGen / LangGraph

Microsoft 和 LangChain 的多 agent 编排框架。
OpenAI Operator / Claude Agents

2025 年真正把 "模型操作电脑" 推向产品的两个标志。

World models & 视频生成

Sora (OpenAI 2024)

Diffusion Transformer，把视频生成推到 60 秒分钟级质量。
Genie / Genie 2 (DeepMind 2024)

从单张图生成可交互 2D / 3D 世界。
Cosmos (NVIDIA 2025)

NVIDIA 面向机器人 / 自动驾驶的 World Foundation Model。
Veo (Google)

Google 的高质量视频生成模型。
Kling / Runway Gen-3

商业视频生成产品的代表。

前沿研究方向

Mechanistic Interpretability

Chris Olah 主持的 Transformer Circuits 系列，尝试把 LLM 打开看。
Test-time Compute Scaling

"思考更久" 替代 "模型更大" 的新 scaling 曲线。
Self-play / Synthetic Data

当公开数据接近枯竭时，用模型自己生成数据训练自己是热门路线。
Multi-agent Systems

多个专精模型 / agent 协作，已在代码、科研、谈判等场景显示优势。
Embodied / Robotics Foundation Models

RT-2、OpenVLA、Gemini Robotics 把 LLM 带到机器人领域。

延伸阅读

Mamba 论文 + Tri Dao 博客

Mamba 背后的系统工程细节。
Transformer Circuits (Anthropic)

机械式可解释性的主站。
Simon Willison's Weekly AI Notes

追踪前沿产品和模型最勤奋的博客。
Jack Clark "Import AI"

Anthropic 联合创始人的周报，政策 + 技术视角。
Sequoia / a16z AI State of Play

投资机构对 AI 行业演进的年度综述。