今天这篇文章,我想用尽量通俗的方式,把AI是怎么炼成的讲清楚。读完这篇,我们就能理解:模型到底学了什么,问题是怎么被看懂的,回答是怎么一点点算出来的,为什么要这么多GPU、HBM、DRAM、SSD,以及记忆功能到底记在哪。
大模型是如何学习的?
现在的大模型,本质上不是真正懂世界的哲学家,而是一个在巨量数据上训练出来的概率系统。它不是真的在思考,它更像是一个被训练出来的、特别会接话的系统。它就像一个被疯狂训练过的自动续写机,只是这个续写机已经被喂了全世界的文本、知识、写作风格、代码示例、推理过程,所以它的续写已经足够聪明,足够像一个人在认真回答。
你可以先把它想成一个孩子,只不过这个孩子不是靠现实生活慢慢长大的,而是靠海量数据喂出来的。它小时候看过什么,基本就决定了它以后会变成什么样。所以大模型厂商会把互联网上的大量网页、书籍、论坛、代码、论文、对话记录都收集起来,让模型去学这些东西。这里的"学",不是让它背答案,而是让它反复做一件事:给它一段前文,让它去猜下一个最可能出现的词是什么。
这个训练方式听起来很简单,甚至有点像小学语文里的填空题。但就是靠着这种看起来很朴素的方法,大模型慢慢学会了语言规律、知识表达方式,甚至一些推理模式。它不是人类意义上的"理解",更像是把人类写过的东西压缩成一大堆内部参数。你可以把这些参数理解成模型的大脑连接强度。训练的过程,就是不断调整这些连接,让它在面对各种文本的时候,越来越会猜,越来越会接,越来越像一个真正会说话的人。
你可能会问,既然它基于数据学习出来的,那遇到没见过的问题它不就不会了吗?当你在海量文本上做了足够多次这种预测,它学到的不只是每一个具体句子,而是语言背后的模式:某种问法通常该怎么回答,某个概念常和哪些词一起出现,哪些推理链条是常见的,各种领域里哪些表述方式是大家习惯的。所以它不是记住了世界上所有问题,而是学会了人类通常怎么表述问题怎么组织答案。
这也就解释了为什么,没人问过的题它也能给出像模像样的回答,但有些细节知识它会一本正经胡说八道,那是因为模式对了,但具体事实没见过或者混淆了。
一句话如何让模型看懂的?
现在到了推理阶段,你在对话框里敲了一大段话,比如"帮我用通俗一点的方式解释大模型是怎么训练的"。这句话要先经历一个转换过程,才能被模型理解。模型不会直接看汉字,而是看一串叫做token的小片段,可以粗略理解为"字粒子"。比如"大、模、型、是、怎、么、训、练",各自可能是一个token,有时也会把"训练"整个当成一个token,这取决于模型的词表。一句话会被切成几十个、几百个token。
每个token会被映射成一串数字(向量)。这一串数共同构成了模型眼里的输入序列,你可以把这一步理解成,把自然语言翻译成模型能理解的数字语言。
接下来是最核心的部分。大模型内部可以想象成有几十层的理解工序,一层代表的是对这句话的所有token做一次统一的加工。比如第一层同时拿到所有token的向量,每个token都会根据和其他token的关系更新自己的理解:"大"知道自己是跟着"模型"的,所以这里的"大"不是大象的"大",而是"规模大"的"大";"训练"知道前面有"大模型",所以这里的"训练"不是"健身训练",而是"机器学习训练"。第二层继续在第一层的基础上对整个句子再理解一遍,可能更关注语法结构和整体意图。一层一层下来,每一层对同一句话都有自己的侧重点,有的更偏语法,有的更偏语义,有的更偏前后文的长距离关系。
这时候GPU发挥作用了。对某一层而言,要处理这句话里的所有token,做大量矩阵乘加运算,而GPU内部有成千上万个小核心,可以同时算这些内容。这就是为什么AI离不开GPU。
当模型把你的问题理解完之后,它就开始输出答案了。不过这个输出不是一整段一下子吐出来的,而是一个 token 一个 token 地生成。比如它先决定第一个词是什么,然后把这个已经生成出来的词和你的原始问题一起再送回模型,再算第二个词,再算第三个词。看上去像是在逐字接龙,但实际上每一步都不是孤立的,因为它每次都会把前面已经生成的内容一并考虑进去。
所以虽然答案是逐步生成的,但并不会显得拼接感很强。原因就在这里。它不是只看最后一个词,而是把前面所有已经说过的话都纳入下一步判断,这样输出才会比较连贯,像一个人在认真组织语言。
算力与存储各是干嘛的?
那这个时候,大家最常听到的"算力"到底在干什么?简单说,就是在帮模型做这些大规模的乘法、加法、概率计算。可以理解成,模型想知道"下一句最适合接什么",就要把当前所有 token 都拿来做一轮复杂的运算,然后在无数个候选词里面挑出最合理的那个。这个过程每一步都要算,而且要算得又快又准,所以算力就变成了大模型最核心的底座。没有足够的算力,模型就算训练出来了,也没法在你提问的时候及时给出答案。训练的时候需要算力,推理的时候也需要算力,只不过训练是"造大脑",推理是"用大脑"。
而算力背后还离不开存储。很多人会以为,大模型回答问题的时候是不是直接去硬盘里翻答案。其实不是。它背后的数据流动是分层的。

最底层是 SSD 或 HDD,这些地方像一个大仓库,装着模型文件、训练数据、检索资料、长期记忆。它们容量很大,但速度相对慢,不适合直接拿来做实时计算。再往上一层是 DRAM,可以把它理解成中转工作台,负责把这次要用的数据先搬出来、整理好、暂时放着。最靠近 GPU 的,是 HBM,也就是显存。显存就像灶台旁边的案板,真正要马上动手算的模型参数、输入向量、中间结果、缓存信息,都会尽量放在这里,因为 GPU 算东西的时候,最需要的是离它最近、速度最快的内存。
所以当你问一个问题的时候,系统并不是直接从 SSD 里一股脑把所有东西都拿出来算,而是先把原始数据和模型材料从大仓库搬到工作台,再送进显存,让 GPU 在高速状态下完成计算。这样才能保证速度和效率。你可以把整个过程想成一个非常大的厨房:SSD 是食材仓库,DRAM 是备菜区,HBM 是灶台边的台面,GPU 是厨师。你点了一道菜,后厨不会直接冲到仓库里现切现找,而是先把最需要的材料取出来,再在灶台边快速处理,最后端给你一盘成品。
那还有一个很多人关心的问题,就是"记忆功能"。为什么以前的模型好像不太记得你说过什么,现在有些模型却能记住很久以前的聊天内容?这件事其实也不是模型本体突然进化出了"长期记忆",而是产品系统在模型外面加了一层记忆管理机制。大模型本身通常还是无状态的,也就是说,你每次发起一次新对话,它默认并不会永久记住上一轮的所有内容。它之所以好像记住了,是因为系统会把你以前说过的重要信息提取出来,存到外部记忆库里。等你下次再来,系统先去把这些相关信息检索出来,再一起塞进上下文里交给模型,让模型"带着记忆"回答。所以记忆不是存在 GPU 里一直不动的,也不是模型参数自动变出来的,而是存在外部数据库、向量库、长期存储这些地方。
写在最后
再往上看一点,就会发现整个 AI 系统其实是一个非常大的分工网络。模型负责理解和生成,算力负责把计算跑起来,存储负责把原始材料、模型参数和记忆保存好,外部记忆系统负责让模型看起来更连续、更懂用户,而数据中心则把这一切连接起来。训练的时候,数据中心像工厂一样疯狂烧算力,去把一个随机的模型训练成会说话的大脑;推理的时候,这些算力又变成服务能力,去支撑成千上万的用户同时提问。你今天觉得它"反应很快",不是因为它真的理解了你的人生,而是因为背后有一整套高效的计算、存储和检索系统在同步运转。
理解这些原理,我们再听说某云厂商Capex预算1000亿美金押注AI,立刻能反应出这钱主要流向GPU采购和数据中心建设,因为训练和推理都需要海量GPU,而GPU是整个链条里利润率最高的环节之一。当看到新闻说NVIDIA新一代芯片带宽提升50%,就能理解这意味着更大的显存容量和更高的数据传输速度,可以让更大的模型跑得更快,对云厂商来说是实实在在的生产力提升。当研究某家AI公司,发现它没有足够的GPU储备,就就能判断它的扩张能力受限,因为算力是硬约束,不是靠加班能解决的。理解原理,才能看懂竞争格局。
以上内容希望对你有帮助,如果你对投资感兴趣记得关注我,我是达子,我们下期见!