LLM工程师必读的12篇论文:从Transformer到DPO,附全部下载链接

LLM必读论文清单

“你可以不写论文,但你不能不读论文。”

最近,IIT毕业的AI教育者 Amit Shekhar 在推特上发了一份"LLM工程师必读论文清单",被收藏了1600多次。这份清单不是那种动辄50篇的"大而全"书单,而是精选了12篇——每一篇都是LLM发展史上的关键节点,读完这12篇,你就能理解今天所有大模型产品背后的核心技术脉络。

我把每篇论文的核心贡献、你能从中学到什么、以及论文下载地址都整理好了。建议收藏,周末挑两篇开始读。

1. Attention Is All You Need(2017)

一切的起点。这篇论文提出了 Transformer 架构,用自注意力机制(Self-Attention)彻底取代了循环神经网络(RNN)。在此之前,序列建模必须一步一步地处理,Transformer 让模型能同时"看到"整个序列的所有位置,并行计算注意力权重。

你能学到:多头注意力机制的数学原理、位置编码为什么必要、编码器-解码器架构的设计思路。今天所有的 GPT、Claude、Gemini、Llama 都建立在这篇论文的基础上。

📄 下载:arxiv.org/abs/1706.03762

2. BERT: Pre-training of Deep Bidirectional Transformers(2018)

如果说 Transformer 是发动机,BERT 就是第一辆跑起来的车。Google 的这篇论文提出了"掩码语言模型"(Masked Language Modeling):随机遮住句子中的一些词,让模型去猜。关键创新是双向上下文——模型同时看左边和右边来理解一个词的含义,而不是像 GPT 那样只看左边。

你能学到:预训练+微调的范式为什么如此强大、双向上下文为什么让 BERT 在理解和分类任务上成为默认选择。虽然生成式AI的风头盖过了 BERT,但它在搜索、分类、NER等任务上至今仍是主力。

📄 下载:arxiv.org/abs/1810.04805

3. GPT-3: Language Models are Few-Shot Learners(2020)

这篇论文让世界第一次意识到"大力出奇迹"不是玩笑。OpenAI 把模型参数量推到了1750亿,然后发现了一个惊人的现象:模型不需要微调,只需要在 Prompt 里给几个例子,就能学会新任务。这就是"上下文学习"(In-Context Learning)。

你能学到:规模如何涌现出新能力、few-shot/zero-shot/one-shot 的区别和原理、为什么 Prompt Engineering 能成为一门学问。这篇论文直接催生了后来的 ChatGPT 革命。

📄 下载:arxiv.org/abs/2005.14165

4. Scaling Laws for Neural Language Models(2020)

OpenAI 的 Kaplan 等人发现了一个优雅的规律:模型的损失(loss)随着计算量、数据量和参数量的增加而可预测地下降,而且这三者之间存在幂律关系。

你能学到:如何在烧掉一块GPU之前就预估模型的性能、为什么"先算账再训练"是正确的工程思维、模型大小和数据量之间的最优比例关系。这篇论文是所有大模型训练决策的理论基础。

📄 下载:arxiv.org/abs/2001.08361

深度阅读:理解LLM的底层逻辑

5. Chinchilla: Training Compute-Optimal Large Language Models(2022)

DeepMind 的这篇论文给整个行业泼了一盆冷水:大多数大模型都训练不足。他们发现,在固定计算预算下,最优策略是每个参数大约对应20个token的训练数据。换句话说,一个训练数据更多的小模型,能打败一个训练数据不足的大模型。

你能学到:为什么 Chinchilla(700亿参数)能在多数基准上打败 Gopher(2800亿参数)、"计算最优"的具体含义、这篇论文如何直接影响了后来 Llama 等模型的设计决策。

📄 下载:arxiv.org/abs/2203.15556

6. InstructGPT: Training Language Models to Follow Instructions(2022)

ChatGPT 背后的秘密武器。这篇论文展示了如何通过 RLHF(基于人类反馈的强化学习)把一个"只会续写文本"的原始模型变成一个"听话的助手"。三步走:监督微调(SFT)→ 训练奖励模型(RM)→ 用 PPO 算法优化。

你能学到:RLHF 的完整流程、为什么一个13亿参数的 InstructGPT 在人类评估中能打败1750亿参数的 GPT-3、“对齐”(Alignment)到底在对齐什么。这篇论文是理解所有现代AI助手的钥匙。

📄 下载:arxiv.org/abs/2203.02155

7. Chain-of-Thought Prompting(2022)

Google 的 Wei 等人发现了一个简单到令人难以置信的技巧:在 Prompt 里加一句"Let’s think step by step",模型在数学、逻辑和多步推理任务上的表现就能大幅提升。

你能学到:为什么"让模型展示思考过程"能提升推理能力、CoT 在什么规模的模型上才有效(大约100B参数以上)、这个发现如何催生了后来的 Tree-of-Thought、Self-Consistency 等一系列推理增强技术。

📄 下载:arxiv.org/abs/2201.11903

8. RAG: Retrieval-Augmented Generation(2020)

Facebook AI(现 Meta AI)提出的这个框架解决了大模型最大的痛点之一:幻觉和知识过时。核心思路是在生成回答之前,先从外部文档库中检索相关信息,然后把检索到的内容作为上下文喂给模型。

你能学到:检索器(Retriever)和生成器(Generator)如何协同工作、为什么 RAG 能让模型回答基于最新事实的问题而不需要重新训练、这个架构如何成为2026年几乎所有企业AI应用的标配。

📄 下载:arxiv.org/abs/2005.11401

9. LoRA: Low-Rank Adaptation of Large Language Models(2021)

微软的这篇论文解决了一个实际工程问题:微调一个大模型太贵了。LoRA 的核心思想是冻结原始模型权重,只训练两个小的低秩分解矩阵。这一招把可训练参数量减少了10000倍,同时性能几乎不损失。

你能学到:低秩分解的数学直觉、为什么大模型的权重更新本身就是低秩的、LoRA 如何让在单张消费级GPU上微调700亿参数模型成为可能(通过后来的 QLoRA 扩展)。这是当前最主流的微调方法,没有之一。

📄 下载:arxiv.org/abs/2106.09685

10. LLaMA: Open and Efficient Foundation Language Models(2023)

Meta 的这篇论文证明了一件事:一个训练充分的130亿参数模型,能在大多数基准上打败GPT-3(1750亿参数)。LLaMA 的意义不仅在于模型本身,更在于它开放了权重,直接引爆了开源大模型生态。

你能学到:Chinchilla 的"计算最优"理论如何在实践中被验证、开源权重如何重塑了整个研究格局、为什么 LLaMA 系列成为了开源社区的"Linux 时刻"。

📄 下载:arxiv.org/abs/2302.13971

11. FlashAttention: Fast and Memory-Efficient Exact Attention(2022)

斯坦福的 Tri Dao 提出了一个纯工程层面的突破:通过重新设计注意力计算的IO模式(让数据在GPU的快速SRAM中完成计算,减少对慢速HBM的读写),在不改变任何数学公式的前提下,把注意力计算的速度提升了2-4倍,内存占用大幅降低。

你能学到:为什么GPU计算的瓶颈往往不是算力而是内存带宽、IO-aware 算法设计的思路、FlashAttention 如何让更长的上下文窗口成为可能。今天几乎所有主流模型的训练和推理都在用它。

📄 下载:arxiv.org/abs/2205.14135

12. DPO: Direct Preference Optimization(2023)

斯坦福的 Rafailov 等人提出了一个优雅的替代方案:不需要训练奖励模型,不需要强化学习,直接在偏好数据上优化模型。DPO 把 RLHF 的复杂流程简化成了一个简单的分类损失函数。

你能学到:为什么 RLHF 的训练过程不稳定且难以调参、DPO 如何用数学推导绕过了奖励模型和PPO、这个方法如何成为2024-2026年模型对齐的主流选择。

📄 下载:arxiv.org/abs/2305.18290

阅读建议:怎么读这12篇

如果你是工程师而不是研究员,不需要逐字逐句读完每篇论文。建议的阅读策略:

入门路线(先读这4篇):

  1. Attention Is All You Need → 理解基础架构
  2. GPT-3 → 理解规模效应和上下文学习
  3. InstructGPT → 理解对齐和RLHF
  4. RAG → 理解检索增强,这是当前最实用的技术

进阶路线(再读这4篇):
5. LoRA → 理解高效微调
6. Chain-of-Thought → 理解推理增强
7. Chinchilla → 理解训练效率
8. FlashAttention → 理解系统优化

完整理解(最后4篇):
9. BERT → 理解双向编码器的价值
10. Scaling Laws → 理解规模定律
11. LLaMA → 理解开源生态
12. DPO → 理解对齐的前沿

每篇论文建议先读 Abstract 和 Introduction,再看实验结果的图表,最后按需深入方法论部分。

写在最后

这12篇论文覆盖了从2017年到2023年LLM发展的完整脉络。从 Transformer 的诞生,到规模定律的发现,到 RLHF 的对齐革命,到 LoRA 的平民化微调,到 RAG 的知识增强——每一篇都是一个转折点。

2026年的AI工程师不需要从零发明轮子,但需要理解轮子是怎么造出来的。这12篇论文就是你的"轮子图纸"。

收藏这篇文章,每周读一篇,三个月后你对LLM的理解会完全不同。


参考来源:

分享到