前言

这本书是为谁写的

如果你有三到五年的工程经验，写过前端、后端或客户端代码，现在想搞清楚 LLM 到底是怎么工作的——这本书是为你写的。

不是为了研究员，不是为了刚入行的新手，也不是为了只想调 API 就完事的人。

本书假设你不懂 Python，也没有机器学习基础，第 0 章提供了足够的 Python 入门内容。

市面上关于 Transformer 的资料要么是论文级别的数学推导，要么是”5分钟学会调用 ChatGPT”。这两类内容中间有一个巨大的空白：工程师需要理解底层机制，但不需要手推梯度。这本书填的就是这个空白。

调 API 确实能完成很多任务。但工程决策层面的问题，光靠调 API 解决不了：

这些问题的答案都在 Transformer 的架构里。不理解 Attention 机制，不知道 token 是怎么被处理的，做架构决策只能靠猜。

读完这本书，你不会变成 AI 研究员，但你能做出有根据的工程判断。

覆盖：

Transformer 架构的核心机制：token 化、Embedding、Attention、Multi-Head Attention、完整的 Encoder-Decoder 结构
三种主要架构变体（Encoder-only、Decoder-only、Encoder-Decoder）以及它们各自适合的任务
HuggingFace 生态的工程用法
Embedding 的工程实践：相似度计算、向量存储
微调的基本流程
推理工程：批处理、延迟优化的基本思路
三个完整实战项目：语义搜索、RAG、TypeScript 集成

不覆盖：

数学推导（反向传播、梯度计算、损失函数的数学细节）
从头训练大模型
模型量化、分布式训练等高级推理工程话题
具体的云平台部署方案
Prompt Engineering（提示词工程）：system/user/assistant 消息结构、few-shot、chain-of-thought 等技巧不在本书范围内

第 0 章是 Python 速成，如果你已经用过 Python，跳过。如果你是纯 JS/TS 背景，建议先跑一遍代码，确认环境正常。

第 1-5 章是核心。这五章按顺序讲 Transformer 的每一层，从最基础的”文字怎么变成数字”开始，一步步到完整架构。这部分建议顺序读，不要跳。

第 6-9 章是工具和工程实践。第 6 章 HuggingFace 是后续一切的基础，建议读。第 7-9 章（Embedding、微调、推理）可以按需跳读，和你当前工作最相关的优先。

第 10-12 章是三个实战项目。语义搜索、RAG、TypeScript 集成，可以直接跳到你最需要的那个。每个项目都是独立可运行的，代码在对应章节的 examples/ 目录下。

示例代码可在各章 examples/ 目录下运行，依赖已在 requirements.txt 中列出。Python 为主，关键处附 TypeScript 对照，方便 JS 背景的读者建立对应关系。

本书示例代码基于以下版本验证：

如果运行时遇到 API 不兼容的报错，通常是库版本差异导致的。建议按照各章 examples/requirements.txt 安装指定版本。

本书在线版同步发布于 inferloop.dev，包含勘误更新和配套资源。如发现内容被转载，欢迎通过原地址核实最新版本。