AI是怎样炼成的？从训练到回答，一次讲清楚

今天这篇文章，我想用尽量通俗的方式，把AI是怎么炼成的讲清楚。读完这篇，我们就能理解：模型到底学了什么，问题是怎么被看懂的，回答是怎么一点点算出来的，为什么要这么多GPU、HBM、DRAM、SSD，以及记忆功能到底记在哪。

大模型是如何学习的？

现在的大模型，本质上不是真正懂世界的哲学家，而是一个在巨量数据上训练出来的概率系统。它不是真的在思考，它更像是一个被训练出来的、特别会接话的系统。它就像一个被疯狂训练过的自动续写机，只是这个续写机已经被喂了全世界的文本、知识、写作风格、代码示例、推理过程，所以它的续写已经足够聪明，足够像一个人在认真回答。

你可以先把它想成一个孩子，只不过这个孩子不是靠现实生活慢慢长大的，而是靠海量数据喂出来的。它小时候看过什么，基本就决定了它以后会变成什么样。所以大模型厂商会把互联网上的大量网页、书籍、论坛、代码、论文、对话记录都收集起来，让模型去学这些东西。这里的"学"，不是让它背答案，而是让它反复做一件事：给它一段前文，让它去猜下一个最可能出现的词是什么。

这个训练方式听起来很简单，甚至有点像小学语文里的填空题。但就是靠着这种看起来很朴素的方法，大模型慢慢学会了语言规律、知识表达方式，甚至一些推理模式。它不是人类意义上的"理解"，更像是把人类写过的东西压缩成一大堆内部参数。你可以把这些参数理解成模型的大脑连接强度。训练的过程，就是不断调整这些连接，让它在面对各种文本的时候，越来越会猜，越来越会接，越来越像一个真正会说话的人。

你可能会问，既然它基于数据学习出来的，那遇到没见过的问题它不就不会了吗？当你在海量文本上做了足够多次这种预测，它学到的不只是每一个具体句子，而是语言背后的模式：某种问法通常该怎么回答，某个概念常和哪些词一起出现，哪些推理链条是常见的，各种领域里哪些表述方式是大家习惯的。所以它不是记住了世界上所有问题，而是学会了人类通常怎么表述问题怎么组织答案。

这也就解释了为什么，没人问过的题它也能给出像模像样的回答，但有些细节知识它会一本正经胡说八道，那是因为模式对了，但具体事实没见过或者混淆了。

一句话如何让模型看懂的？

现在到了推理阶段，你在对话框里敲了一大段话，比如"帮我用通俗一点的方式解释大模型是怎么训练的"。这句话要先经历一个转换过程，才能被模型理解。模型不会直接看汉字，而是看一串叫做token的小片段，可以粗略理解为"字粒子"。比如"大、模、型、是、怎、么、训、练"，各自可能是一个token，有时也会把"训练"整个当成一个token，这取决于模型的词表。一句话会被切成几十个、几百个token。

每个token会被映射成一串数字（向量）。这一串数共同构成了模型眼里的输入序列，你可以把这一步理解成，把自然语言翻译成模型能理解的数字语言。

接下来是最核心的部分。大模型内部可以想象成有几十层的理解工序，一层代表的是对这句话的所有token做一次统一的加工。比如第一层同时拿到所有token的向量，每个token都会根据和其他token的关系更新自己的理解："大"知道自己是跟着"模型"的，所以这里的"大"不是大象的"大"，而是"规模大"的"大"；"训练"知道前面有"大模型"，所以这里的"训练"不是"健身训练"，而是"机器学习训练"。第二层继续在第一层的基础上对整个句子再理解一遍，可能更关注语法结构和整体意图。一层一层下来，每一层对同一句话都有自己的侧重点，有的更偏语法，有的更偏语义，有的更偏前后文的长距离关系。

这时候GPU发挥作用了。对某一层而言，要处理这句话里的所有token，做大量矩阵乘加运算，而GPU内部有成千上万个小核心，可以同时算这些内容。这就是为什么AI离不开GPU。

当模型把你的问题理解完之后，它就开始输出答案了。不过这个输出不是一整段一下子吐出来的，而是一个 token 一个 token 地生成。比如它先决定第一个词是什么，然后把这个已经生成出来的词和你的原始问题一起再送回模型，再算第二个词，再算第三个词。看上去像是在逐字接龙，但实际上每一步都不是孤立的，因为它每次都会把前面已经生成的内容一并考虑进去。

所以虽然答案是逐步生成的，但并不会显得拼接感很强。原因就在这里。它不是只看最后一个词，而是把前面所有已经说过的话都纳入下一步判断，这样输出才会比较连贯，像一个人在认真组织语言。

算力与存储各是干嘛的？

那这个时候，大家最常听到的"算力"到底在干什么？简单说，就是在帮模型做这些大规模的乘法、加法、概率计算。可以理解成，模型想知道"下一句最适合接什么"，就要把当前所有 token 都拿来做一轮复杂的运算，然后在无数个候选词里面挑出最合理的那个。这个过程每一步都要算，而且要算得又快又准，所以算力就变成了大模型最核心的底座。没有足够的算力，模型就算训练出来了，也没法在你提问的时候及时给出答案。训练的时候需要算力，推理的时候也需要算力，只不过训练是"造大脑"，推理是"用大脑"。

而算力背后还离不开存储。很多人会以为，大模型回答问题的时候是不是直接去硬盘里翻答案。其实不是。它背后的数据流动是分层的。

GPU存储结构

最底层是 SSD 或 HDD，这些地方像一个大仓库，装着模型文件、训练数据、检索资料、长期记忆。它们容量很大，但速度相对慢，不适合直接拿来做实时计算。再往上一层是 DRAM，可以把它理解成中转工作台，负责把这次要用的数据先搬出来、整理好、暂时放着。最靠近 GPU 的，是 HBM，也就是显存。显存就像灶台旁边的案板，真正要马上动手算的模型参数、输入向量、中间结果、缓存信息，都会尽量放在这里，因为 GPU 算东西的时候，最需要的是离它最近、速度最快的内存。

所以当你问一个问题的时候，系统并不是直接从 SSD 里一股脑把所有东西都拿出来算，而是先把原始数据和模型材料从大仓库搬到工作台，再送进显存，让 GPU 在高速状态下完成计算。这样才能保证速度和效率。你可以把整个过程想成一个非常大的厨房：SSD 是食材仓库，DRAM 是备菜区，HBM 是灶台边的台面，GPU 是厨师。你点了一道菜，后厨不会直接冲到仓库里现切现找，而是先把最需要的材料取出来，再在灶台边快速处理，最后端给你一盘成品。

那还有一个很多人关心的问题，就是"记忆功能"。为什么以前的模型好像不太记得你说过什么，现在有些模型却能记住很久以前的聊天内容？这件事其实也不是模型本体突然进化出了"长期记忆"，而是产品系统在模型外面加了一层记忆管理机制。大模型本身通常还是无状态的，也就是说，你每次发起一次新对话，它默认并不会永久记住上一轮的所有内容。它之所以好像记住了，是因为系统会把你以前说过的重要信息提取出来，存到外部记忆库里。等你下次再来，系统先去把这些相关信息检索出来，再一起塞进上下文里交给模型，让模型"带着记忆"回答。所以记忆不是存在 GPU 里一直不动的，也不是模型参数自动变出来的，而是存在外部数据库、向量库、长期存储这些地方。

写在最后

再往上看一点，就会发现整个 AI 系统其实是一个非常大的分工网络。模型负责理解和生成，算力负责把计算跑起来，存储负责把原始材料、模型参数和记忆保存好，外部记忆系统负责让模型看起来更连续、更懂用户，而数据中心则把这一切连接起来。训练的时候，数据中心像工厂一样疯狂烧算力，去把一个随机的模型训练成会说话的大脑；推理的时候，这些算力又变成服务能力，去支撑成千上万的用户同时提问。你今天觉得它"反应很快"，不是因为它真的理解了你的人生，而是因为背后有一整套高效的计算、存储和检索系统在同步运转。

理解这些原理，我们再听说某云厂商Capex预算1000亿美金押注AI，立刻能反应出这钱主要流向GPU采购和数据中心建设，因为训练和推理都需要海量GPU，而GPU是整个链条里利润率最高的环节之一。当看到新闻说NVIDIA新一代芯片带宽提升50%，就能理解这意味着更大的显存容量和更高的数据传输速度，可以让更大的模型跑得更快，对云厂商来说是实实在在的生产力提升。当研究某家AI公司，发现它没有足够的GPU储备，就就能判断它的扩张能力受限，因为算力是硬约束，不是靠加班能解决的。理解原理，才能看懂竞争格局。

以上内容希望对你有帮助，如果你对投资感兴趣记得关注我，我是达子，我们下期见！

AI是怎样炼成的？从训练到回答，一次讲清楚

大模型是如何学习的？

一句话如何让模型看懂的？

算力与存储各是干嘛的？

写在最后

📈 深入理解AI投资机会

相关文章

拼多多：重新认识这家公司

泸州老窖：深度复兴

快手科技深度分析

便宜才是硬道理

微信分享