前言

这本书是写给谁的

2024 年初，我在做一个 Agent 项目。用户反馈说”回复太慢了”，我看了看代码——前端没问题，API 调用也正常，延迟全在模型推理上。我打开 vLLM 的文档，看到 PagedAttention、Continuous Batching、KV Cache 这些词，一个都不认识。

那一刻我意识到，作为一个写了五年前端的工程师，我对自己每天调用的 LLM API 背后发生了什么，一无所知。

后来我花了大半年时间，从 Transformer 论文读起，一路啃到 CUDA 编程、量化算法、分布式训练。这个过程很痛苦——不是因为内容难，而是因为没有一份材料是给”我这种人”写的。学术论文假设你会线性代数，MLSys 课程假设你懂 C++，开源项目的文档假设你已经知道它在解决什么问题。

这本书就是我当初希望存在的那本书。

目标读者：

如果你是 ML 科班出身，这本书对你来说可能太基础了。如果你完全没写过代码，这本书对你来说可能太快了。但如果你是那种”API 调得很溜，但不知道底下跑的是什么”的工程师——这本书就是为你写的。

这不是一本学术教材。你不会在这里看到大段的数学推导和定理证明。

这也不是一本 API 教程。市面上教你调 OpenAI API 做 ChatBot 的书已经够多了。

这是一本工程指南。它关心的问题是：

每个问题都给你数字、代码、和可以直接用的配置文件。

全书分六个部分，建议按顺序读前三部分（第 0-8 章），后面的按需跳读。

第 0 章是给不熟悉 Python 的前端工程师准备的快速入门，会 Python 的直接跳过。

**第一部分（第 1-3 章）**建立基础认知：LLM 技术栈长什么样、Transformer 在工程层面怎么运作、GPU 的基本概念。这部分不需要 GPU，纯概念理解。

**第二部分（第 4-6 章）**进入推理引擎：从模型文件到 API 响应的完整链路，vLLM 的核心设计，以及如何在 vLLM、SGLang、Ollama 等引擎之间做选型。

**第三部分（第 7-8 章）**讲模型优化：量化技术和各种推理加速手段（FlashAttention、投机解码、Prefix Caching 等）。

**第四部分（第 9-11 章）**覆盖微调和训练：LoRA/QLoRA 实战、RLHF/DPO 对齐、分布式训练基础。第 11 章是进阶内容，大多数读者可以先跳过。

**第五部分（第 12-14 章）**是生产化：Docker/K8s 部署、可观测性、成本优化、RAG 基础设施。这部分有大量可以直接复制使用的配置文件。

**第六部分（第 15-16 章）**看趋势和规划方向：多模态基础设施、从 Agent 开发者到 Infra 工程师的职业路径。

每章的代码示例在 examples/ 目录下，大部分可以在 CPU 上跑模拟演示，需要 GPU 的会在章节开头标注。

LLM Infra 是一个变化极快的领域。vLLM 半年一个大版本，GPU 一年一代，API 价格每个季度都在降。本书中涉及的具体版本号、价格数据和性能数字都标注了时间，仅供数量级参考。

但底层原理的保质期要长得多。Transformer 的 Attention 机制、KV Cache 的内存管理、量化的精度-性能权衡、分布式训练的通信拓扑——这些概念在可预见的未来不会过时。理解了原理，你就能自己判断新技术是在解决什么问题、值不值得跟进。

这也是本书的核心目标：不是给你一个会过期的答案，而是给你一个不会过期的思考框架。