LLM 算法演进路线
从 N-gram 到 Transformer、从 GPT-3 到 o1 / R1,一张按时间展开的大语言模型算法地图:每章带介绍、该回答的问题,以及关键模型、论文、技术和工具。
语言模型前史
深度学习之前,语言模型的标准范式是 N-gram + 平滑(Kneser-Ney、Good-Turing):看前 n-1 个词预测第 n 个词。这套方法算得快、可解释,但有两大硬伤——维度灾难(vocabulary^n 空间)和上下文窗口短(n=4 以上统计极度稀疏)。2003 年 Bengio 提出 Neural Probabilistic Language Model,把词映射到连续向量空间;2013 年 Mikolov 的 word2vec 把这套思路工程化,让词向量成为 NLP 基础组件。这一阶段奠定的核心思想——分布式表示(distributed representation)——是后来一切发展的地基。
学完后你应该能回答
- N-gram 模型的概率是怎么算的?为什么 Kneser-Ney 平滑比 Laplace 平滑更常用?
- Bengio 2003 的 Neural Probabilistic Language Model 相比 N-gram 最本质的创新是什么?
- word2vec 的 CBOW 和 Skip-gram 在训练目标上有什么差异?
- Negative sampling 和 Hierarchical Softmax 各自解决了什么计算问题?
- GloVe 和 word2vec 的训练目标哲学有什么差别?
- 词向量的线性结构(king − man + woman ≈ queen)为什么会出现?
- 词向量的根本局限是什么?为什么同一个 "bank" 不能同时表示银行和河岸?
- FastText 相比 word2vec 加入了什么,对 OOV(未登录词)为什么更友好?
更多问题 (2)
- 分布式假说 "You shall know a word by the company it keeps" 的哲学来源?
- TF-IDF、LSA、LDA 这些传统方法在今天还有什么价值?
关键技术
-
统计语言模型的标准范式,Kneser-Ney 平滑是 30 年的工业标配。
-
把词映射到稠密向量空间,是整个现代 NLP 的起点。
-
Mikolov 的两个简化模型(CBOW、Skip-gram)把词向量做成能工业化训练的工具。
- Negative sampling
把 softmax 替换成二分类,Skip-gram 训练从 O(V) 降到 O(k)。
-
基于全局共现矩阵的词向量方法,和 word2vec 互补。
-
Facebook 的子词(character n-gram)词向量,对形态丰富的语言和 OOV 都更友好。
- TF-IDF / LSA / LDA
更老的文本表示方法,今天在信息检索和文档聚类仍有一席之地。
关键论文
-
用 MLP 做语言模型的开山之作,明确了"学词向量"这件事。
-
word2vec 第一篇:CBOW 和 Skip-gram 的原始论文。
-
第二篇:引入 negative sampling、hierarchical softmax、subsampling。
-
斯坦福的 GloVe 论文。
-
FastText 核心论文。
代表模型与工具
-
原始 C 实现,训练大规模语料仍很快。
-
Python 里做 word2vec、LDA、LSI 最方便的库。
-
工业级 NLP 流水线,预训练词向量和 pipeline 都很好用。
-
教学级 NLP 工具箱,N-gram、HMM、PCFG 都在里面。
延伸阅读
-
NLP 教科书标杆,前几章讲 N-gram 和词向量最清楚。
-
斯坦福 NLP 课的前三讲专门讲词向量。
-
一篇博客把分布式表示的核心直觉讲透。
RNN 时代
词向量解决了词级表示,但语言是序列问题——一个词的意义依赖上下文。循环神经网络(RNN)通过在时间维度展开同一组权重来处理变长序列,但梯度消失让它很难学到长距离依赖。LSTM(Hochreiter 1997)用门控机制让信息能在长序列里传递;GRU(2014)是更轻量的变种。2014 年 Sutskever 提出 Seq2Seq,把 encoder-decoder 架构带进机器翻译;同年 Bahdanau 引入注意力机制(attention),让解码时能回看输入的任意位置——这一步直接孕育了后来的 Transformer。
学完后你应该能回答
- RNN 的梯度消失 / 梯度爆炸本质是什么?BPTT 是怎么做的?
- LSTM 的三个门(forget / input / output)分别控制什么?
- GRU 相比 LSTM 少了什么?在什么场景性能差别可以忽略?
- Seq2Seq 的 encoder-decoder 架构解决了翻译场景下的什么难题?
- Bahdanau attention 和 Luong attention 的差别?
- 为什么 RNN 类模型难以并行训练?这对工业部署意味着什么?
- Teacher forcing 和曝光偏差(exposure bias)是什么关系?
- ConvS2S(Facebook 2017)相比 RNN Seq2Seq 的优势在哪?为什么没成主流?
更多问题 (2)
- Beam search 的 width 选择对翻译质量影响多大?
- ELMo 为什么被称为"过渡形态"?它用的是什么架构?
关键模型
-
最原始的循环结构,实际训练效果受制于梯度消失。
-
Hochreiter & Schmidhuber 1997 的开山论文,门控 + 细胞状态(cell state)是关键。
-
Cho 2014 提出,把 LSTM 的三门合并成两门,参数更少、训练更快。
-
Sutskever 2014 的 encoder-decoder 翻译框架,是现代生成式模型的骨架。
-
让 decoder 按需回看 encoder 任意位置,直接铺垫了 Transformer。
-
Facebook 2017 用 CNN 做 Seq2Seq,比 RNN 并行化好但很快被 Transformer 盖过。
-
双向 LSTM 做 contextual embedding,是 pretrain 思想的早期工业化实现。
关键论文
-
门控网络治疗梯度消失的原始论文。
-
Google 把 encoder-decoder 成功用在机器翻译。
-
attention 的原始提出。
-
Luong 式 attention(global / local)和 Bahdanau 式的对比。
-
ELMo 论文,大规模预训练在 NLP 里初露端倪。
工具
- PyTorch / TensorFlow
早期 RNN 模型的主力实现框架;今天仍是教学起点。
-
开源神经机器翻译框架,RNN 时代的工业选择。
-
Facebook 的 Seq2Seq 工具箱,后来扩展到 Transformer。
- torchtext / AllenNLP
围绕 PyTorch 生态的数据加载和模型组件。
延伸阅读
-
一篇博客让几百万人理解 character-level RNN 为什么惊艳。
-
把 LSTM 门控结构画得最清楚的博客。
-
斯坦福 NLP 课里关于 RNN、LSTM、注意力的标准讲义。
Transformer 与预训练时代
2017 年 Google 的《Attention is All You Need》把 Transformer 架构带进世界:只用 self-attention 替代 RNN/CNN,实现端到端并行。核心创新:multi-head self-attention、位置编码、残差连接 + LayerNorm。2018 年 GPT-1 和 BERT 几乎同期:GPT 走自回归生成路线(decoder-only),BERT 走掩码填空(encoder-only,MLM)。T5(2019)把所有 NLP 任务都重新包装成 text-to-text。这段时期的大趋势是「预训练 + 微调」,数据和算力取代了任务特定架构。
学完后你应该能回答
- Self-attention 的 Q / K / V 各起什么作用?复杂度是 O(n²) 还是 O(n·d)?
- Multi-head 相比单头的收益在哪?为什么通常选 8 / 16 / 32 头?
- 绝对位置编码(sinusoidal) vs 相对位置编码 vs RoPE 的动机差别?
- BERT 的 MLM 为什么要 80% mask / 10% replace / 10% unchanged?
- GPT 的 next-token prediction 比 BERT 的 MLM 强在哪?弱在哪?
- Encoder-only / Decoder-only / Encoder-Decoder 三种架构各适合什么任务?
- T5 把所有 NLP 任务文本到文本化的做法为什么影响深远?
- BPE / WordPiece / SentencePiece 三种 tokenizer 的区别?
更多问题 (2)
- Post-LN vs Pre-LN 对训练稳定性影响有多大?
- 为什么 Transformer 在视觉(ViT)、语音(Whisper)上也能打?
关键架构
-
Vaswani 2017 的原始论文,现代 LLM 的共同祖先。
-
Google 2018 的 encoder-only 预训练模型,MLM 目标。
-
OpenAI 2018 的 decoder-only 预训练 + 微调范式的首次确立。
-
Google 2019 的 text-to-text 框架,把所有 NLP 任务统一成文本生成。
-
FAIR 优化 BERT 的训练配方:更多数据、更长时间、去掉 NSP。
-
结合 AR 和 AE 的 Permutation LM,理论优雅但工程代价高。
-
FAIR 的 encoder-decoder 预训练模型,noise → denoising 目标。
关键机制
-
并行算多个 "视角" 的 attention,是 Transformer 的计算核心。
- Position encoding
sinusoidal(原论文)、learned、相对位置、RoPE——表达序列顺序的核心手段。
-
Transformer 稳定训练的关键组件;Pre-LN vs Post-LN 的选择影响深远。
- Masked Language Modeling
BERT 的预训练目标,随机 mask 部分 token 让模型填空。
- Next-token prediction
GPT 系列的预训练目标,也是所有现代生成式 LLM 的基础。
-
把文本切成子词的三种主流算法,决定 vocab 和 encoding 效率。
工具
-
事实标准的预训练模型库,几乎所有 Transformer 模型都有官方移植。
-
Meta 的 Seq2Seq / Transformer 训练框架,学术圈常用。
-
Google 原始 Transformer 的参考实现,现在主要作为历史档案。
-
~300 行 PyTorch 的极简 GPT 实现,理解 Transformer 细节的最佳教材。
延伸阅读
-
最受欢迎的 Transformer 图解博客。
-
BERT 和 GPT 的图解版本。
-
Lilian Weng 的 Transformer 变体综述。
-
斯坦福 NLP 课对 Transformer 的系统讲解。
Scaling Laws:从 GPT-2 到 GPT-3
2019 年 GPT-2 把 Transformer 放大到 1.5B 参数,展示了 zero-shot 能力——模型能用自然语言提示直接完成任务,不需要微调。2020 年 GPT-3 放大到 175B,发现 few-shot in-context learning:给几个示例就能学会新任务。同年 Kaplan 的《Scaling Laws for Neural Language Models》证明 loss 随 compute / data / params 呈幂律下降。2022 年 DeepMind 的 Chinchilla 修正了 Kaplan 的结论——在固定 compute 下 data 应该和 params 同比例放大。这一套规律决定了后续所有大模型的资源分配。
学完后你应该能回答
- GPT-2 的 1.5B vs GPT-3 的 175B 之间,能力跃迁的关键差异是什么?
- Emergent abilities 有哪些?分别在什么 scale 才出现?
- Kaplan Scaling Laws 的三条幂律是怎么推导的?
- Chinchilla 发现 Kaplan 结论里哪个假设是错的?它给出的新配比是什么?
- 175B GPT-3 的训练成本(GPU-hour、电力)大约多少?
- In-context learning 为什么能 work?它和真正的 fine-tuning 差别在哪?
- Prompt engineering 从什么时候开始成为一门"手艺"?
- 开源 GPT-2 vs 闭源 GPT-3 的生态路径差别?
更多问题 (2)
- 为什么 Chinchilla 的发现催生了 LLaMA 这类"参数少但数据足"的模型?
- Compute 作为元资源,怎么决定了 AI 产业的竞争格局?
代表模型
-
Zero-shot 展示了 pretrain 的力量,当时引发 "too dangerous to release" 争议。
-
NVIDIA 的大模型训练系统论文,Tensor Parallel 的奠基。
-
Google 在 T5 论文里训练的最大版本。
-
微软一度最大 LLM,训练用了 DeepSpeed。
-
Few-shot in-context learning 正式登场,震惊整个 NLP 学界。
-
AI21 的 GPT-3 同量级模型。
-
Google 的 540B Pathways 训练模型,规模一度领先。
-
DeepMind 的 compute-optimal 实验:同算力下 70B 打败 280B。
关键论文
-
Zero-shot 范式的首次系统展示。
-
Compute / data / params 三大幂律的原始论文。
-
Few-shot in-context learning 的经典论文。
-
修正 Kaplan 的结论,给出新的 20 tokens / param 比例。
-
系统化记录了 scale 到某阈值后"突然涌现"的能力。
训练系统
-
NVIDIA 的大模型训练工具链,Tensor Parallel 的参考实现。
-
Microsoft 的训练优化库,ZeRO 优化器的主要实现。
-
EleutherAI 的开源复现项目,第一代"民间大模型"。
-
模型和 checkpoint 的事实中心仓库。
延伸阅读
-
OpenAI 官方对 GPT-3 的介绍和早期应用案例。
-
"每 3.4 个月 AI 算力翻一倍"的原始分析。
-
对 scaling 现象最充分的外部论述,长但值得读。
-
Dwarkesh Patel 的播客访谈,AI 研究者对 scaling 的直接讨论。
对齐:RLHF 与指令学习
预训练模型能接话,但不一定"有用"或"安全"。2022 年 InstructGPT 把 RLHF(Reinforcement Learning from Human Feedback)做工业化:第一步在 SFT 数据集上微调、第二步训练奖励模型(reward model)、第三步用 PPO 强化学习优化。同年 11 月 ChatGPT 让大众第一次体验到对齐模型的差别。2023 年起业界探索更便宜的替代:Anthropic 的 Constitutional AI 让模型自我批判;DPO(Direct Preference Optimization)砍掉 reward model 直接优化偏好;SimPO、KTO、IPO 继续简化。2024 年起 RLAIF(AI feedback 取代 human feedback)让数据瓶颈大幅缓解。
学完后你应该能回答
- RLHF 三步走具体在做什么?PPO 在第三步起什么作用?
- Reward model 的训练数据(pairwise preferences)怎么收集?标注员怎么选?
- 为什么说 RLHF 比纯监督微调更有效?纯 SFT 的上限在哪?
- InstructGPT 相比原始 GPT-3 提升最大的是哪个维度?
- Constitutional AI 的 "self-critique" 流程具体是什么?
- DPO 相比 PPO 简化了什么?性能差多少?
- Reward hacking 在 RLHF 里长什么样?怎么缓解?
- SFT / RLHF / DPO 各自的训练数据量级?
更多问题 (2)
- RLAIF 相比 RLHF 的关键创新是什么?
- 当前前沿对齐方法:ReST / SimPO / KTO / IPO 各自的定位?
核心技术
- Supervised Fine-Tuning (SFT)
用指令-响应对监督微调,是所有后续对齐的第一步。
- Reward Model (RM)
输入回答对,输出偏好得分。RLHF 的 "referee"。
-
InstructGPT 使用的 RL 算法,核心是 clipped objective 限制更新幅度。
-
用闭式解替代 RL,一个交叉熵 loss 解决偏好优化。
-
Anthropic 的自我批判框架,用 AI 反馈代替部分人类标注。
- SimPO / KTO / IPO
2024 年一批 DPO 变种,继续简化和修正 loss 形式。
关键论文
-
RLHF 工业化的标志性论文,给出了三步走配方。
-
Anthropic 的对齐方法论,强调可解释的价值原则。
-
把 RL 换成一个监督 loss,是 2023 年最重要的对齐论文。
-
DPO 的进一步简化,去掉 reference model。
-
基于 Kahneman-Tversky 前景理论的偏好学习。
代表对齐模型
-
把 GPT-3.5 变成对话伙伴的转折点。
-
OpenAI 的 flagship,多模态 + 对齐质量大幅提升。
-
Constitutional AI 和 RLHF 的结合,强调 helpful + harmless + honest。
-
Meta 的开源对齐模型,RLHF 训练细节在论文里最公开。
-
国内开源对齐模型代表,R1 把 RL on reasoning 推到开源前沿。
延伸阅读
-
OpenAI 官方对齐研究页面。
-
Anthropic 对齐和可解释性研究的第一手博客。
-
RLHF 科普博客中流传最广的一篇。
-
Lil'Log 的对齐篇,技术细节最全。
高效化:MoE、量化、长上下文
模型越大越聪明,但训练和推理成本也水涨船高。三条路径压缩成本:(1)稀疏激活(MoE, Mixture of Experts)让每个 token 只用一小部分参数;(2)量化(INT8 / INT4 / FP8)降低权重存储和计算精度;(3)注意力工程优化让长上下文可行。Mixtral 8x7B(Mistral 2023)证明 MoE 在开源界可行;GPT-4 据推测也是 MoE 架构;Gemini 1.5 Pro 用 ring attention 撑到 1M tokens;DeepSeek-V3 同时用 MoE + MLA + FP8,是目前最系统的效率案例。
学完后你应该能回答
- MoE 架构中 top-k routing 怎么选 expert?load imbalance 问题怎么解?
- GShard / Switch Transformer / Mixtral 的 MoE 实现差别?
- INT8 / INT4 量化会损失多少精度?AWQ、GPTQ、SmoothQuant 思路有什么不同?
- FP8 训练相比 FP16 / BF16 在 H100 / Blackwell 上带来多少加速?
- LoRA 为什么只训练低秩矩阵就能有效?QLoRA 的量化怎么加上去的?
- FlashAttention 是怎么把 attention 的 HBM 访问降下来的?算法上变了吗?
- PagedAttention(vLLM)把 KV cache 管理改成类似 OS 分页,主要好处是什么?
- Ring attention / Infini-attention / Mamba 分别怎么突破 context length 限制?
更多问题 (2)
- Speculative decoding 的 Medusa / EAGLE / Lookahead 加速比上限是什么?
- MLA(Multi-head Latent Attention)在 DeepSeek-V2/V3 里怎么减少 KV cache?
核心技术
-
Shazeer 2017 的稀疏门控专家层,是现代大模型效率的基础。
-
Google 的简化版 MoE,参数可到万亿级别。
-
让模型权重用 8-bit 或 4-bit 存储,推理成本下降一个数量级。
-
低秩适配让微调只需要训练 <1% 的参数。
-
Tri Dao 的 IO-aware kernel,让 attention 在 HBM 上近似 O(n)。
-
把 KV cache 当作虚拟内存分页管理,显存利用率从 20-40% 提升到 90%+。
-
减少 attention head 数或共享 KV 的优化,降低 KV cache 和带宽。
-
小模型起草 + 大模型验证,推理延迟下降 2-4x。
关键论文
-
第一代大规模 MoE 论文。
-
Google 2021 把 MoE 做到 1.6T 参数。
-
Low-Rank Adaptation 的开山论文。
-
attention kernel 优化的标杆论文。
-
KV cache 管理革命的原始论文。
-
Mistral 的 8x7B MoE,开源 MoE 的里程碑。
-
MoE + MLA + FP8 同时运用的完整技术报告。
代表模型
- Switch-C (1.6T, Google 2021)
最早的万亿参数 MoE 模型。
-
Mistral 开源的 MoE,激活参数约 13B,推理效率接近 Llama-70B 水平。
-
国产开源旗舰,MLA + MoE 训练成本压到行业十分之一。
-
Google 把 context 推到 1M tokens 的旗舰模型。
-
阿里开源 + 闭源的 MoE 系列,注重效率工程。
延伸阅读
-
FlashAttention 作者的技术博客。
-
PagedAttention 和 continuous batching 的权威说明。
-
ZeRO、MoE、inference 工程的公开文档。
-
效率相关章节整理了大量工程 trade-off。
多模态与推理
2023-2024 年两个方向并行发展:多模态和推理。多模态从 CLIP(2021)的跨模态对齐开始,经 Flamingo(2022)的图文混合输入、GPT-4V(2023)的原生视觉、Gemini(2023)同时处理文本图像音频视频。推理能力上,Chain-of-Thought prompting(Wei 2022)先发现"让模型 step-by-step 思考"能涨分;2024 年 9 月 OpenAI o1 把「思考」变成模型训练目标(RL on reasoning),在数学和代码上大幅提升;2025 年 1 月 DeepSeek R1 证明这条路径开源可复现。当前前沿正快速向"推理 + 多模态"融合演进。
学完后你应该能回答
- CLIP 的对比学习怎么对齐图像和文本?它的 zero-shot classification 原理?
- Flamingo / BLIP-2 / LLaVA 在视觉-语言融合上用了什么不同思路?
- GPT-4V 的原生视觉 vs 外挂 vision encoder,工程差别在哪?
- Whisper 的音频 tokenization 怎么做?
- Chain-of-Thought prompting 为什么能大幅提升推理?它只对大模型有效吗?
- Self-consistency 相比 greedy decoding 提升来自哪里?
- Tree of Thoughts、Graph of Thoughts 和 CoT 的关系是什么?
- OpenAI o1 的 "RL on reasoning" 训练的是什么信号?
更多问题 (2)
- DeepSeek R1 的 GRPO 相比 PPO 做了什么简化?
- Test-time compute scaling 和 pretrain scaling 的本质差别是什么?
多模态模型
-
图像-文本对比学习开启多模态时代,zero-shot classification 的 baseline。
-
把视觉 token 插入冻结的 LLM,实现 few-shot 视觉问答。
-
Q-Former 桥接 vision encoder 和 LLM,训练成本低。
-
OpenAI 的多模态旗舰,GPT-4o 做到原生文本/音频/视觉。
-
Google 的原生多模态模型家族。
-
Visual Instruction Tuning 的代表,开源社区的默认起点。
-
阿里的开源多模态系列,追赶 GPT-4V 的主力之一。
推理模型
-
一行 "let's think step by step" 显著提升推理能力。
-
多次采样 + 多数投票,CoT 的强化版。
-
把 CoT 扩展成可搜索的思维树。
-
RL on reasoning 训练的模型,AIME / Codeforces 上接近专家水平。
-
开源首个复现 o1 级别推理的模型,GRPO 算法成为新的 RL 基线。
-
Anthropic 在 Claude 3.7 / 4 上的 "显式思考" 能力。
关键论文
-
多模态学习的开山之作。
-
Few-shot visual language model 的代表。
-
首次系统化的 step-by-step 推理研究。
-
CoT → ToT 的扩展。
-
GRPO 训练、纯 RL 激活推理能力的开源典范。
-
OpenAI 给出的 "推理阶段算力" 的 scaling law。
延伸阅读
-
o1 的官方能力、安全、基准报告。
-
GRPO 和多阶段 RL 训练的完整细节。
-
把 CoT、ToT、Agent 的关系讲清楚。
-
多模态 + reasoning 的日常评测和观察,工程角度最清晰。
前沿方向:Agents、SSM、世界模型
2024 年起 LLM 研究的重心向"超越 Transformer"和"变成 Agent"两个方向分化。架构上,Mamba / State Space Models 探索线性复杂度的序列建模,RetNet、Hyena、RWKV、Jamba 都在尝试替代 quadratic attention。Agent 方向上,Anthropic 的 Computer Use(2024)、OpenAI Operator(2025)、Claude Agents(2025)让模型直接操作浏览器和操作系统;Tool use、long-term memory、multi-agent 成为产品主题。World models(Genie、Sora、Cosmos)把视频和物理仿真纳入大模型范畴。整个领域在 2025-2026 是最不确定也最快变化的。
学完后你应该能回答
- Mamba / SSM 为什么说是线性复杂度?它的"选择性"是什么?
- Mamba 能 scale 到 GPT-4 规模吗?目前最大的 SSM 模型是什么?
- RWKV / Hyena / RetNet / Jamba 的定位差别?
- ReAct 框架如何把推理和行动交替?它为什么是 Agent 的起点?
- MCP(Model Context Protocol)和 Function Calling / Tool Use 是什么关系?
- Computer use / Browser use 类 agents 的主要技术难点?
- 多 agent 协作(AutoGen、CrewAI)在什么场景能 beat 单 agent?
- Sora / Genie / Cosmos 这类 world model 的核心机制是什么?
更多问题 (2)
- Mechanistic Interpretability 目前能解释 LLM 的哪些行为?
- "data wall"(公开数据耗尽)对 scaling 的影响:合成数据能解决吗?
新架构
-
选择性 SSM,线性复杂度 + 近似 Transformer 性能,是当前最有力的挑战者。
-
RNN 式训练 + Transformer 式表现,社区驱动的开源项目。
-
Retentive Network,微软提出的 attention 替代品。
-
用隐式长卷积替代 attention,标志着 "sub-quadratic" 浪潮。
-
Transformer + Mamba 的 hybrid,大 context 上有明显优势。
Agent 框架
-
Reasoning + Acting 交替,是 Agent 设计最常用的骨架。
-
让模型学会自己决定什么时候调用 API 的开山论文。
-
2023 年引爆 Agent 想象力的社区项目。
-
Anthropic 主导的开放协议,把工具接入标准化。
-
Microsoft 和 LangChain 的多 agent 编排框架。
-
2025 年真正把 "模型操作电脑" 推向产品的两个标志。
World models & 视频生成
-
Diffusion Transformer,把视频生成推到 60 秒分钟级质量。
-
从单张图生成可交互 2D / 3D 世界。
-
NVIDIA 面向机器人 / 自动驾驶的 World Foundation Model。
-
Google 的高质量视频生成模型。
-
商业视频生成产品的代表。
前沿研究方向
-
Chris Olah 主持的 Transformer Circuits 系列,尝试把 LLM 打开看。
-
"思考更久" 替代 "模型更大" 的新 scaling 曲线。
- Self-play / Synthetic Data
当公开数据接近枯竭时,用模型自己生成数据训练自己是热门路线。
- Multi-agent Systems
多个专精模型 / agent 协作,已在代码、科研、谈判等场景显示优势。
- Embodied / Robotics Foundation Models
RT-2、OpenVLA、Gemini Robotics 把 LLM 带到机器人领域。
延伸阅读
-
Mamba 背后的系统工程细节。
-
机械式可解释性的主站。
-
追踪前沿产品和模型最勤奋的博客。
-
Anthropic 联合创始人的周报,政策 + 技术视角。
-
投资机构对 AI 行业演进的年度综述。