为什么现代 AI 能做成?Hinton 对话 Jeff Dean
2025 年 12 月初,圣地亚哥 NeurIPS 大会。Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。
对话聚焦一个关键问题:
现代 AI 为什么能从实验室走向数十亿用户?
从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实验,到支撑全球亿级应用的基础设施。
这是一次对 AI 工业化进程的系统性复盘。
他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌现。强算法必须与强基础设施结合,才能真正走向规模化。
沿着时间线,我们梳理三个关键阶段:
起点突破:硬件如何让 AI 从想法变成现实
系统成熟:算法、组织、工具如何协同推进
未来门槛:规模化之后要突破的三道关卡
看清这条路径,你就能理解AI为什么是今天这个样子。
第一节|AI的突破,起于一块GPU板
Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。
那是 2012年 ,ImageNet 比赛。
别人用的是手工特征提取,他和学生团队用的是深度神经网络。参数比别人多十倍,算力也超出好几倍,准确率远超对手。AlexNet 由此奠定了深度学习的地位。
而这场胜利证明了一件事:没有足够算力,什么结构都只是想象。
Jeff Dean 的回忆更早:1990 年他还在做本科论文,就开始琢磨怎么用并行算法训练神经网络。他做了两个方向,一个现在叫数据并行,一个叫模型并行,但当时没人用这些词。他用的是一台 32 处理器的超立方体计算机。
问题是:他分了 32 份算力,却只用了 10 个神经元。
“我犯了个很大的错误。”
这次失败的经验,让他在二十多年后设计TPU 时,从一开始就考虑如何让算力和模型规模真正匹配。
二十多年后,类似的算力问题再次出现,但这次是在推理端。
2013 年,Jeff Dean 在餐巾纸做了一次计算:如果未来全球有 1 亿人每天用语音助手,每人说 3 分钟话,要用现在的模型上线,仅这一个应用就需要让谷歌的服务器总量翻倍。
这是真实的物理成本。
他没有等预算开会。他拦下了谷歌当时的 CFO Patrick Pichette,说:我们得自己造硬件,现在就要。
TPU 项目就此启动。2015 年,第一代 TPU 专注于推理,而非训练。它比同期 CPU 和 GPU 的推理能效高出 30-80 倍。直到 2017 年的 TPU v2,Google 才开始在自研硬件上大规模训练模型。
这是一条垂直整合的路线。十年之后,TPU 已经进化到第七代。Pathways系统让一个Python进程能统一调度分布在跨城市数据中心的数万颗TPU芯片,就像操作一台超大型计算机。
与此同时,NVIDIA GPU 路线也在持续演进。
从 AlexNet 的两块 GPU 板卡,到 2023 年的 H100、2024年的 H200,以及2025年开始交付的 B200,NVIDIA GPU 仍然支撑着 OpenAI、Meta 等公司的大规模训练。值得注意的是,AI 基础设施已经呈现多元化:Anthropic 在 AWS 的Trainium 芯片和 Google TPU 之间分配训练任务,各家都在寻找最适合自己的路线。。
两条路线各有优势:
NVIDIA GPU生态开放、适配性强,让创业者和研究者都能用上 AI 算力;
定制芯片如TPU、Trainium则为特定需求深度优化,在能效和成本上有独特价值。
从卧室里的两块 GPU 板,到遍布全球的 AI 算力网络,AI 的突破第一步不是理解语言,也不是创造内容,而是拥有足够算力完成训练。
第二节|从 AlexNet 到 Gemini,三条曲线如何交汇
现代 AI 能大规模应用,不是靠某一个天才灵感,而是三条技术曲线在 2017-2023 年间密集交汇:
1、算法架构找到了可扩展的形态
从AlexNet 到Transformer,核心变化不是更聪明,而是更易规模化。
卷积神经网络擅长图像,但参数量和层数成正比,很难做大;
循环神经网络能处理序列,但必须一个字一个字处理,算不快。
Transformer 的突破在于:它把顺序处理变成了并行处理。所有token同时计算,既快,又能充分利用GPU/TPU的并行能力。
在 Jeff Dean 看来,同样的准确率,Transformer 用的计算量可以比LSTM少10-100倍。这不是小优化,而是让大规模训练从理论可能变成“工程可行”。
Geoffrey Hinton 起初并不看好。他觉得这种“保存所有状态”的设计不像大脑。
但他后来意识到:不用管像不像人脑,重要是它真的让 Scaling law 成立了。
2、组织方式从分散变成集中
2022 年 ChatGPT 发布前,Google 内部已经有一个聊天机器人,8万员工在用。技术上已经可行,为什么没推向市场?
Jeff Dean说 ,他们被搜索业务的思维限制住了,太过纠结准确性和幻觉问题,反而忘了它可以做很多不是搜索的事情。
更关键的问题是:当时Google有三个团队在各自训练模型:Brain、Research、DeepMind。每个团队的算力都不够大,也各自为战。ChatGPT 上线一周后,Dean 写了一页纸的备忘录:我们其实早就能做出这个,但我们没把资源合起来。
Gemini 团队就此诞生。算力、模型、人才第一次真正集中到一个目标上。
技术突破往往不是技术问题,而是组织问题。
3、工程工具栈形成了闭环
AI 不只是模型,还需要一整套让它能运行、能调试、能复用的基础设施:
JAX:让研究员能用数学语言直接写代码
Pathways:让 2 万颗 TPU 能被一个Python 进程调度
蒸馏技术:把千亿参数模型压缩到能跑在手机上
这些工具的价值,不只是提升效率,而是降低了AI 的准入门槛。有了 JAX,研究员不需要成为系统工程师;有了 Pathways,不需要手动管理上万个设备;有了蒸馏,不需要每个应用都依赖云端算力。
为什么是这三条?因为它们形成了一个闭环:
Transformer 让模型能规模化,但需要更大算力支撑;
更大算力需要组织资源集中,同时催生了更好的工具;
更好的工具提升训练效率,反过来支撑了更大模型的训练。
缺任何一条,AI 都不会从实验室走到 10 亿用户手里。
第三节|能效、记忆、创造:AI规模化后的三道门槛
模型已经能运行起来,也能用在现实中。那接下来要突破什么?
Jeff Dean 和 Hinton在这场对话中,不约而同指出了三个还未解决的方向。这不是更大模型的问题,而是三道看不见的门槛:
01|能效:规模化的物理极限
AI 模型越来越大,带来的直接后果是越来越贵、越来越耗电。
Gemini的训练动用了上万颗 TPU 芯片。每一次模型升级,意味着消耗更多电力、更多时间、更多预算。
Dean 指出,虽然 Google 在2013年就通过自研TPU把推理能效提升了30-80倍,但今天这个问题变得更严峻了:要让 AI 真正普及,不能靠继续叠加计算,而是要换一种方式训练和部署。
Google 现在把最常用的模型推理控制在FP4这种超低精度格式上运行。 背后的逻辑很简单:只要结果对,过程可以模糊。
但这还不够。Dean 认为下一代推理硬件需要在能效上再提升一个数量级。
02|记忆:上下文的深度限制
现在的模型上下文窗口,最强的也不过几百万个token。
Dean 认为:现在的模型理解力,仍然受限于一次能看到多少信息。就像人一次只能翻 5 页书,AI 也只能看一段、忘一段。
Hinton 也强调,它们还不能真正像人一样长期记住事物。
想要让 AI 真正帮助科学研究、复杂决策,必须能一次处理更深、更长的信息,比如整本教科书、整年财报、或一百篇相互关联的论文。
Dean 的思路是:让模型能覆盖数十亿甚至万亿个token。这背后的挑战不是如何算得更快,而是如何让模型记得更深、理解得更远。
而要实现这一点,不只是算法层面的优化,芯片本身的注意力计算架构也需要重新设计。
03|创造:从模仿到联想
Hinton 最关注的是另一个维度:AI 会不会联想。
他说,人类大脑最厉害的地方,不是记忆,不是推理,而是能把看似无关的东西联系起来。
“训练这些大模型,实际上是把海量知识压进一个相对有限的空间里。你必须找到不同事物之间的共同点,才能压得进去。”
这意味着,AI 在训练过程中会自动学到很多人类没意识到的类比。
Hinton 说
“也许某个模型发现了希腊文学和量子力学之间的共同结构。人类专家可能永远都不会把它们放在一起看。”
很多人说 AI 只是模仿,不具创造力。
Hinton 不同意:把遥远的事物联系起来,本身就是创造。Dean 也认同这一点,并指出这将是 AI 下个阶段的关键应用方向:让 AI 在科学研究中发现跨领域的联系,加速突破的发生。
这三道门槛分别卡在不同层面:能效是物理成本问题,记忆是架构能力问题,创造是认知边界问题。
但它们不是孤立的:
能效不突破,长上下文训不起
长上下文做不到,深度联想没有基础
联想能力不行,AI 就永远只是个更快的搜索引擎
突破这些门槛,需要的不只是工程优化,更是长周期的技术积累。
Dean 在对话中反复提到一个事实:Google 今天依赖的大部分技术,从互联网协议到芯片架构,本质上都来自早年的学术研究。深度学习的爆发,不是因为某一天突然有了新想法,而是很多 30 年前没人重视的研究,一起开始发挥作用。
AI 的未来不能只靠烧钱建数据中心,同样需要对基础研究的持续投入。
结语|不是一瞬间成了,是很多事同时准备好了
从卧室里的 GPU,到谷歌数万颗 TPU 的算力网络;从被拒稿的蒸馏论文,到今天压缩部署的标配;从研究型实验室,到能服务 10 亿用户的产品。
现代 AI 能成,不靠某个爆点,而是长期对准了几件关键事:算法能落地、算力能支撑、研究环境能留住人。
不是哪个时刻决定一切,而是很多件事情共同推动,让 AI 真正从想法变成了能用的产品。
Hinton 说,大模型的本质,是在训练中把海量知识压进有限空间,而要做到这种压缩,就得找到看似不相关的事物之间的共同规律。
Dean 则表示,AI 下一步要突破的,不是答案,而是理解的范围。
真正重要的,不是模型的大小,而是能否把技术突破转化为人人可用的产品。