LLM工程师必读的12篇论文：从Transformer到DPO，附全部下载链接

2026-04-19

2026-05-04

LLM, RAG

摘要：“你可以不写论文，但你不能不读论文。” 最近，IIT毕业的AI教育者 Amit Shekhar 在推特上发了一份"LLM工程师必读论文清单"，被收藏了1600多次。这份清单不是那种动辄50篇的"大而全"书单，而是精选了12篇——每一篇都是LLM发展史上的关键节点，读完这12篇，你就能理解今天所有大模型产品背后的核心技术脉络。我把每篇论文的核心贡献、你能从中学到什么、以及论文下载地址都整理好了。建议收藏，周末挑两篇开始读。

LLM必读论文清单

“你可以不写论文，但你不能不读论文。”

最近，IIT毕业的AI教育者 Amit Shekhar 在推特上发了一份"LLM工程师必读论文清单"，被收藏了1600多次。这份清单不是那种动辄50篇的"大而全"书单，而是精选了12篇——每一篇都是LLM发展史上的关键节点，读完这12篇，你就能理解今天所有大模型产品背后的核心技术脉络。

我把每篇论文的核心贡献、你能从中学到什么、以及论文下载地址都整理好了。建议收藏，周末挑两篇开始读。

1. Attention Is All You Need（2017）

一切的起点。这篇论文提出了 Transformer 架构，用自注意力机制（Self-Attention）彻底取代了循环神经网络（RNN）。在此之前，序列建模必须一步一步地处理，Transformer 让模型能同时"看到"整个序列的所有位置，并行计算注意力权重。

你能学到：多头注意力机制的数学原理、位置编码为什么必要、编码器-解码器架构的设计思路。今天所有的 GPT、Claude、Gemini、Llama 都建立在这篇论文的基础上。

📄 下载：arxiv.org/abs/1706.03762

2. BERT: Pre-training of Deep Bidirectional Transformers（2018）

如果说 Transformer 是发动机，BERT 就是第一辆跑起来的车。Google 的这篇论文提出了"掩码语言模型"（Masked Language Modeling）：随机遮住句子中的一些词，让模型去猜。关键创新是双向上下文——模型同时看左边和右边来理解一个词的含义，而不是像 GPT 那样只看左边。

你能学到：预训练+微调的范式为什么如此强大、双向上下文为什么让 BERT 在理解和分类任务上成为默认选择。虽然生成式AI的风头盖过了 BERT，但它在搜索、分类、NER等任务上至今仍是主力。

📄 下载：arxiv.org/abs/1810.04805

3. GPT-3: Language Models are Few-Shot Learners（2020）

这篇论文让世界第一次意识到"大力出奇迹"不是玩笑。OpenAI 把模型参数量推到了1750亿，然后发现了一个惊人的现象：模型不需要微调，只需要在 Prompt 里给几个例子，就能学会新任务。这就是"上下文学习"（In-Context Learning）。

你能学到：规模如何涌现出新能力、few-shot/zero-shot/one-shot 的区别和原理、为什么 Prompt Engineering 能成为一门学问。这篇论文直接催生了后来的 ChatGPT 革命。

📄 下载：arxiv.org/abs/2005.14165

4. Scaling Laws for Neural Language Models（2020）

OpenAI 的 Kaplan 等人发现了一个优雅的规律：模型的损失（loss）随着计算量、数据量和参数量的增加而可预测地下降，而且这三者之间存在幂律关系。

你能学到：如何在烧掉一块GPU之前就预估模型的性能、为什么"先算账再训练"是正确的工程思维、模型大小和数据量之间的最优比例关系。这篇论文是所有大模型训练决策的理论基础。

📄 下载：arxiv.org/abs/2001.08361

深度阅读：理解LLM的底层逻辑

5. Chinchilla: Training Compute-Optimal Large Language Models（2022）

DeepMind 的这篇论文给整个行业泼了一盆冷水：大多数大模型都训练不足。他们发现，在固定计算预算下，最优策略是每个参数大约对应20个token的训练数据。换句话说，一个训练数据更多的小模型，能打败一个训练数据不足的大模型。

你能学到：为什么 Chinchilla（700亿参数）能在多数基准上打败 Gopher（2800亿参数）、"计算最优"的具体含义、这篇论文如何直接影响了后来 Llama 等模型的设计决策。

📄 下载：arxiv.org/abs/2203.15556

6. InstructGPT: Training Language Models to Follow Instructions（2022）

ChatGPT 背后的秘密武器。这篇论文展示了如何通过 RLHF（基于人类反馈的强化学习）把一个"只会续写文本"的原始模型变成一个"听话的助手"。三步走：监督微调（SFT）→ 训练奖励模型（RM）→ 用 PPO 算法优化。

你能学到：RLHF 的完整流程、为什么一个13亿参数的 InstructGPT 在人类评估中能打败1750亿参数的 GPT-3、“对齐”（Alignment）到底在对齐什么。这篇论文是理解所有现代AI助手的钥匙。

📄 下载：arxiv.org/abs/2203.02155

7. Chain-of-Thought Prompting（2022）

Google 的 Wei 等人发现了一个简单到令人难以置信的技巧：在 Prompt 里加一句"Let’s think step by step"，模型在数学、逻辑和多步推理任务上的表现就能大幅提升。

你能学到：为什么"让模型展示思考过程"能提升推理能力、CoT 在什么规模的模型上才有效（大约100B参数以上）、这个发现如何催生了后来的 Tree-of-Thought、Self-Consistency 等一系列推理增强技术。

📄 下载：arxiv.org/abs/2201.11903

8. RAG: Retrieval-Augmented Generation（2020）

Facebook AI（现 Meta AI）提出的这个框架解决了大模型最大的痛点之一：幻觉和知识过时。核心思路是在生成回答之前，先从外部文档库中检索相关信息，然后把检索到的内容作为上下文喂给模型。

你能学到：检索器（Retriever）和生成器（Generator）如何协同工作、为什么 RAG 能让模型回答基于最新事实的问题而不需要重新训练、这个架构如何成为2026年几乎所有企业AI应用的标配。

📄 下载：arxiv.org/abs/2005.11401

9. LoRA: Low-Rank Adaptation of Large Language Models（2021）

微软的这篇论文解决了一个实际工程问题：微调一个大模型太贵了。LoRA 的核心思想是冻结原始模型权重，只训练两个小的低秩分解矩阵。这一招把可训练参数量减少了10000倍，同时性能几乎不损失。

你能学到：低秩分解的数学直觉、为什么大模型的权重更新本身就是低秩的、LoRA 如何让在单张消费级GPU上微调700亿参数模型成为可能（通过后来的 QLoRA 扩展）。这是当前最主流的微调方法，没有之一。

📄 下载：arxiv.org/abs/2106.09685

10. LLaMA: Open and Efficient Foundation Language Models（2023）

Meta 的这篇论文证明了一件事：一个训练充分的130亿参数模型，能在大多数基准上打败GPT-3（1750亿参数）。LLaMA 的意义不仅在于模型本身，更在于它开放了权重，直接引爆了开源大模型生态。

你能学到：Chinchilla 的"计算最优"理论如何在实践中被验证、开源权重如何重塑了整个研究格局、为什么 LLaMA 系列成为了开源社区的"Linux 时刻"。

📄 下载：arxiv.org/abs/2302.13971

11. FlashAttention: Fast and Memory-Efficient Exact Attention（2022）

斯坦福的 Tri Dao 提出了一个纯工程层面的突破：通过重新设计注意力计算的IO模式（让数据在GPU的快速SRAM中完成计算，减少对慢速HBM的读写），在不改变任何数学公式的前提下，把注意力计算的速度提升了2-4倍，内存占用大幅降低。

你能学到：为什么GPU计算的瓶颈往往不是算力而是内存带宽、IO-aware 算法设计的思路、FlashAttention 如何让更长的上下文窗口成为可能。今天几乎所有主流模型的训练和推理都在用它。

📄 下载：arxiv.org/abs/2205.14135

12. DPO: Direct Preference Optimization（2023）

斯坦福的 Rafailov 等人提出了一个优雅的替代方案：不需要训练奖励模型，不需要强化学习，直接在偏好数据上优化模型。DPO 把 RLHF 的复杂流程简化成了一个简单的分类损失函数。

你能学到：为什么 RLHF 的训练过程不稳定且难以调参、DPO 如何用数学推导绕过了奖励模型和PPO、这个方法如何成为2024-2026年模型对齐的主流选择。

📄 下载：arxiv.org/abs/2305.18290

阅读建议：怎么读这12篇

如果你是工程师而不是研究员，不需要逐字逐句读完每篇论文。建议的阅读策略：

入门路线（先读这4篇）：

Attention Is All You Need → 理解基础架构
GPT-3 → 理解规模效应和上下文学习
InstructGPT → 理解对齐和RLHF
RAG → 理解检索增强，这是当前最实用的技术

进阶路线（再读这4篇）：
5. LoRA → 理解高效微调
6. Chain-of-Thought → 理解推理增强
7. Chinchilla → 理解训练效率
8. FlashAttention → 理解系统优化

完整理解（最后4篇）：
9. BERT → 理解双向编码器的价值
10. Scaling Laws → 理解规模定律
11. LLaMA → 理解开源生态
12. DPO → 理解对齐的前沿

每篇论文建议先读 Abstract 和 Introduction，再看实验结果的图表，最后按需深入方法论部分。

写在最后

这12篇论文覆盖了从2017年到2023年LLM发展的完整脉络。从 Transformer 的诞生，到规模定律的发现，到 RLHF 的对齐革命，到 LoRA 的平民化微调，到 RAG 的知识增强——每一篇都是一个转折点。

2026年的AI工程师不需要从零发明轮子，但需要理解轮子是怎么造出来的。这12篇论文就是你的"轮子图纸"。

收藏这篇文章，每周读一篇，三个月后你对LLM的理解会完全不同。

参考来源：

Amit Shekhar (@amitiitbhu), “Research papers every LLM engineer must read”, X/Twitter, 2026年4月18日
所有论文链接均指向 arXiv 官方页面，可免费下载PDF

AI技术