对话清华刘子鸣:AI还没迎来自己的牛顿时代
2.11
知识分子
The Intellectual

图源:Pixabay
编者按
去年年底,清华大学人工智能学院助理教授刘子鸣在个人博客上发文,直言 AI 研究尚未迎来属于自己的“牛顿时代”。他借用物理学史上“第谷—开普勒—牛顿”的演进路径作类比,形容今天的 AI 更像停留在观测和经验公式阶段。我们拥有大量数据和模型,却缺乏真正理解背后规律的科学语言。Scaling Law 虽然有效,却让研究者沉迷于规模扩张,而忽略了对机制的探索。
撰文 | 张天祁
● ● ●
刘子鸣出身物理系,早期研究集中在“AI for Physics”,用 AI 解决物理问题。直到 2022 年博三时,ChatGPT 的诞生让他意识到 AI 本身可能才是更值得研究的对象,他开始思考能否用物理学的方法论去理解 AI 系统内部的演化和能力形成。
现在,他走上了 Physics of AI 的道路,尝试用物理学的思路理解 AI,把神经网络当作一个可以被观测和实验的系统,通过观察、实验和归纳,去拆解其训练中的动力学过程。
在他看来,科学建立在可复现的实验和现象的持续积累之上。但在当下的AI研究中,对于很多现象还缺乏一套共同的科学语言。研究者的关注往往集中于少数热点问题,许多细微却重要的观察,却因为没法讲出一个好故事而无法发表。
“我们需要建立一套更统一的科学语言。只有当研究能够用这种可复现、可讨论的语言展开,AI 才有可能真正从‘炼丹’走向一门严谨的科学”,刘子鸣说。
01
*用物理学的视角研究*AI
《知识分子》:你本科和博士都在物理系,早期的作品很多是用 AI 当作工具去解决物理问题。但最近这几年,你的视角似乎完全反过来了,开始用物理学的思维去研究 AI 本身。这种反转是如何发生的?
刘子鸣:研究对象从物理到AI,这确实是一个顺应时代进程的转变。我的本科和博士都在物理系,博二之前主要做AI for Physics,那时物理是研究的核心,AI 只是工具 。
转折点发生在 2022 年,也就是我博三的时候,ChatGPT 诞生了。那个时候我开始觉得 AI 本身就是一个非常有意思的研究对象,其中蕴含着巨大的机会。但我并不想单纯去调参或者刷榜,我觉得那不是我特别想做、也不是特别擅长的事情 。
我想,能不能结合我之前擅长的技能,也就是在物理学中学到的方法论和具体的数理工具,把它们应用到 AI 上?当时这还是一个比较独特的角度。大家更多的是去构建新方法,但对方法背后的原理并不清楚。所以我们想从物理的角度去理解现代 AI 系统中观察到的现象,并希望这些洞见能帮助我们未来更系统地构建下一代模型 。
后来我们发现,研究 AI 问题和研究物理系统本质上是一样的,甚至 AI 更可控、迭代更快。在自然科学里你会受到实验设备的限制,但在 AI 系统里,你拥有上帝视角,可以观察任何你想观察的东西,只要把它打印出来或收集起来。这种便利性为我们提供了海量的研究素材,这是自然科学实验难以比拟的 。
《知识分子》:你认为目前 AI 原理上最重要、最值得探索的问题是什么?
刘子鸣:我认为最核心的问题是 AI 的训练动力学。
生物学里有一句名言:“Nothing in biology makes sense except in the light of evolution.(如果不从进化的角度去看,生物学的一切都无法解释。)”如果你不从进化的角度理解现在的生命形态,很多事情是不合理的;但一旦引入进化视角,一切就豁然开朗了 。
这跟 AI 是一样的。我们现在很多时候只看训练完成后的模型,看它有什么能力。但我们更希望理解的是:它是如何在训练过程中获得这些能力的?我们需要去理解这个“进化”的过程。
虽然我们都知道它是靠反向传播、靠梯度下降,但这个过程内部发生了什么?我们希望建立一种多层次的理解。宏观上,它什么时候掌握了某种能力?微观上,底层的神经元和权重是如何随着时间演化的?介观上,它内部是否形成了一些特定的模块或结构来处理子任务?只有理解了这个动态的进化过程,我们才能真正系统地去诊断模型、改进模型 。
《知识分子》:对于我们理解AI的进化,现在研究上的阻碍在哪里?
刘子鸣:问题在于对现象的研究和观察不足。
现在的 AI 就是一头大象。我们想理解它,理论上应该把大象的每一个部位都摸一遍,拼凑起来才能知道全貌。但现在有两个阻碍。
第一,很多人不愿意去摸这头大象,或者说只关注大象的鼻子。比方说,如果只关心训练的 loss 曲线或者最终的性能指标,其实就丢失了大量其他重要现象。比如模型内部是如何演化的,这些大家往往没有去观察。
第二,即使有人去摸,大多数注意力又过于集中在少数“戏剧性”的现象上。像大家熟知的规模定律、顿悟(Grokking)等,这些现象研究得很透彻,是因为它们够戏剧性,有故事可讲。但这只是整个系统的一小部分。
但我想说,要充分理解这个系统,可能需要发现 100 种甚至 1000 种现象。剩下那些可能不那么令人兴奋,但这需要我们耐着性子坐冷板凳去发现。大家不要只盯着鼻子看,去摸摸大象的耳朵、尾巴、腿。哪怕这些部位看起来不那么重要,但只有把它们都摸清楚了,我们才能形成对这头大象的全局理解 。积累到一定量之后,才会有真正的大的洞见涌现出来 。
现在的问题是,这些微小的洞见很难发表成论文。因为它很难被包装成一个听起来特别 戏剧性 的故事。现在的发表文化往往是:只要我摸到了大象的鼻子,我就去仔细研究鼻子的纹理,甚至研究鼻子的每一个细胞,把这个局部故事讲得特别漂亮、特别精细。但大象的鼻子终究不是大象,研究得再精细,也偏离了我们要理解大系统的目标。
《知识分子》:如何理解“Physics of AI”?你希望它弥补当前 AI 研究中哪些被忽略的理解层面?
刘子鸣:Physics of AI 是我对自己研究思路的一种概括。所谓用物理学的方式理解 AI,更像是一种实验驱动的科学。
我会借用物理学中的简化和抽象的思考方式。比如我想研究系统的某个行为,我会尝试把相关因素简化到一两个,建立一个描述该行为的有效模型或有效理论。当描述另一个行为时,建立另一套简化的方法 。
从这个意义上说,Physics of AI 更像是一套方法论。它是可以日积月累去做的,不需要依赖灵感,等着苹果砸到头上,只要按照这个方法论去研究,每天都能获得一点新的理解。我觉得这个是更可持续的一个方向。
《知识分子》:以你说的这种“物理学视角”来统摄这些层面,和现有研究路径相比,它最核心的优势在哪里?
刘子鸣:我的方法论本身并没有什么特别新奇的地方,核心只是把理论和实践真正连接起来,而这个连接的桥梁就是玩具模型(Toy Model)。
现在的一个常见问题是割裂:做大模型的人在实践中观察到很多现象,但因为系统太复杂,没法解释;而做理论的人在造非常简单的数学模型,然后强行解释说这个模型和大模型有关。这就像我刚才反思时说的,是在“强行说大象的鼻子就是大象”。
我的做法是构建一个 Hierarchy(层级结构)。首先,我会从最简单的玩具模型开始,看这个现象能不能在小系统中出现。如果能够观察到,就逐步增加复杂度,比如把模型做得更深一些、更宽一些,或者引入更多结构,接着再去看这个现象是被放大了、被削弱了,还是转化成了别的形式。
我认为我们需要的是耐下心来,积累非常多小的洞见。知道它们之间有什么联系后,把这些点全部连起来,最终才会迎来一个顿悟的时刻,“原来这头大象是长这样的。”
《知识分子》:简单模型上的研究成果,在什么程度可以迁移到大模型上?
刘子鸣:还原论是我个人的信念。我相信只要理解了每一个基本模块的行为,以及它们之间是如何相互作用的,就能理解整个庞大的系统是怎么工作的 。
我并不寄希望小模型上观察的现象,能够立刻去和大模型上的现象去做对应。但是我们去解构这个小模型的现象的时候,会发现一些原因。这些原因在大模型上仍然存在,只是体现的程度和规模不同。
所以我把研究过程分成三个步骤。第一步,我们先观察小模型上的现象;第二步,对这些现象进行解释,追溯到产生它们的原因;第三步,再把这些原因应用去生成对大模型的理解或解释。当然实际的研究过程不需要这么教条,很多时候就是纯粹的好奇心驱动。
这样做有两个好处: 第一,如果小模型上的现象能直接对应到大模型,那我们就可以在小模型上做大量可控的实验,成本极低 。 第二,更常见的情况是,小模型和大模型的现象看起来不一样,就像大象的耳朵和老鼠的耳朵,长得完全不同,但听声音这个机制是一样的 。我们通过研究老鼠的耳朵搞清楚了听觉机制,就可以推演大象是怎么听声音的。
一旦我们在小系统上锁定了某个现象,我们就有能力去做更多的参数扫描,做更多可控的实验,从而获得透彻的理解。有了这个理解,我们就不需要无头苍蝇一样在大系统上乱试。
02
AI研究还没有迎来牛顿时代
《知识分子》:你曾用物理学史上的“第谷—开普勒—牛顿”来类比 AI 理论的发展阶段。能否具体解释一下,这三个阶段各自代表了什么?我们今天大致处在哪个阶段?
刘子鸣:这是一条非常经典的科学发展路线。
第谷阶段的核心是观测。第谷·布拉赫做了大量、极其精确的天文观测,积累了当时最可靠的数据,但这些数据本身只是呈现出一些现象,并没有形成真正的理论。
到了开普勒阶段,则是唯象理论的建立。他利用第谷的数据,总结出了行星绕太阳运行的椭圆轨道定律。这一步非常重要,它用简洁的几何规律压缩了海量观测数据,能够很好地描述自然现象。但从科学本质上说,它仍然停留在描述层面,并没有回答为什么会是这样,因为其中还没有“力”的概念。
真正进入本质层面的,是牛顿阶段。牛顿通过万有引力定律和牛顿第二定律,从根本机制出发推导出了椭圆轨道。更重要的是,一旦掌握了这个机制,不仅可以解释行星运动,连苹果落地这样的非椭圆轨迹的抛物线运动,同样可以被统一推导出来。这标志着科学从经验规律上升为可演绎、可推广的理论体系。
从第谷到开普勒,再到牛顿,本质上是一个从表象走向本质、从冗余数据走向高度压缩知识的过程。
如果把这条路径放到 AI 上来看,我个人认为,我们现在还远远称不上“科学”,甚至连开普勒阶段都没有真正到达,更接近于第谷阶段的早期。甚至我们还不太清楚应该观察什么。我们对模型的观测是高度离散、非常匮乏的,更重要的是,我们并不清楚这些零散观察之间究竟如何彼此关联。
在物理学里,通常是先观察到一个现象,然后大家会本能地去追问:它为什么会发生?背后的机制是什么?比如发现一个新的规律,可能很快就会有上千篇论文去尝试解释它。当然论文多不一定是好事,但至少说明大家在努力理解它。
但在 AI 里,情况有点不一样。以 Scaling Law 为例,大家观察到这个现象之后,第一反应往往不是去解释它,而是去利用它,去融资、去把模型做得更大。这个选择当然可以理解,因为它确实有效,但慢慢地,它就变成了一种近乎信仰的东西,而不是一个等待被解释的科学问题。
《知识分子》:这种“信仰”会带来什么问题?
刘子鸣:最糟糕的地方在于,Scaling 确实是有用的。系统做大了,性能真的会上升。也正因为它有效,反而削弱了我们去追问机制的动机。
就像求雨,如果你求了很多次雨,发现和降雨毫无关系,你自然会意识到这是迷信,会有动力去发展气象学,去真正理解降雨的机制。但如果你每次求雨,天真的都会下雨,你可能就不会再去思考因果关系了。我觉得现在的 Scaling 有点类似这种状态。它带来了进步,但也让整个领域过度依赖规模扩张,而忽略了更系统、更高效的理解路径。从长远看,这未必是最聪明的方式。
《知识分子》:目前业界普遍相信 Scaling Law,认为只要不断扩大数据、模型和算力规模,就能一步步逼近 AGI。您怎么看这条以规模扩张为核心的路径?它最终真的能通向 AGI 吗?
刘子鸣:其实我在博客上有过评论,我的观点是,如果没有能量或者数据的瓶颈,现在的方法也能通向 AGI。
按照现在方法的逻辑,如果做不到泛化到分布之外的情况,那是因为数据不够多或者模型还不够大。但是,只要有了足够多的数据,把世界上所有的东西都变成了分布之内,那么 AGI 自然就到来了。所以我并不怀疑现在的方式是可以到达 AGI 的,这一点我同意。
但是,这不是一种最聪明的方式。甚至可以说,这是一种极其低效的方式。
这就好比让一群猴子去打字,只要时间足够长,它们最后都能打出一部《莎士比亚全集》。我没有说 scaling就是这么的愚蠢,它最后确实能像我说的,靠收集无穷的数据、消耗无穷的能量达到 AGI。但这恰恰是问题所在。我们未来不久就会碰到数据和能量的瓶颈,这时候我们需要寻找一些更聪明的方法。
我们需要的是一种像化学那样的指导性科学。在化学诞生之前,炼丹师也能偶尔发现火药或者合金,但那是随机的、不可控的。而当化学建立起来之后,有了元素周期表,也理解了原子和分子是如何结合的,我们就能有目标地去设计材料,知道该往哪个方向尝试,而不是在大海里捞针。
《知识分子》:这是否意味着当下的AI研究已经到了瓶颈?
刘子鸣:我觉得现在 AI 研究领域一个很大的问题是大家各说各的,缺乏统一的科学语言。
正因为没有共识。大家只能陷入一种公关战争 。最后的结果是什么呢?就是影响力取决于谁的嗓门大,取决于谁之前做出过什么东西,而不是取决于这个东西到底有多科学 。
你会看到张三出来说:“我的模型更好!”李四也出来喊:“不,我的模型更好!”大家都在比谁的分数高,比谁的嗓门大。但这种争论往往是无效的,因为大家连“好”的标准和背后的机制都没有共识。
某种程度上,研究成了玄学甚至许愿。现在很多人做 AI 也是这样,调整了一个特定的参数,模型变强了,就把这个调参技巧包装成神技。但实际上,这中间的因果关系是不清楚的。大家都在对着黑盒许愿,一旦灵验了就大肆宣传,但这不是科学,这是迷信。
我们需要建立一套更统一的科学语言。与其争论“谁的模型更好”,不如客观地描述,在什么样的数据分布下、什么样的结构和训练过程,会稳定地产生什么样的现象。只有当研究能够用这种可复现、可讨论的语言展开,AI 才有可能真正从“炼丹”走向一门严谨的科学。
一旦我们有了这种科学的语言,情况就会完全不同。大家才能真正开始沟通。哪怕我不同意你的模型比我的好,但我们至少能达成一个共识。现在我们没有这种基础,没有这种关于知识的共识,所以导致沟通起来非常困难。
我们急需两方面的改变: 从技术上,我们要先发展出 AI 的元素周期表,帮助我们更好地去设计东西。 从文化上,我们需要建立一套统一的科学语言。否则,这个领域会永远停留在“炼丹”的阶段。虽然这样或许也能熬到 AGI,但我觉得这绝对不是最聪明的办法 。
《知识分子》:您在博客中提出了“结构主义”(Structuralism),并把它作为区别于符号主义和连接主义的第三条路径。这三者的本质是什么?为什么您认为“结构主义”是通向 AGI 的更有希望的方向?
刘子鸣:这其实关乎我们如何看待智能的本质。我可以用一个最简单的监督学习任务来做类比,比如给定输入 x,预测输出 y。
如果是符号主义(Symbolism),最典型的对应就是线性回归。这一类方法高度可解释,你可以清楚地写出每一个变量如何影响结果,就像物理学中的还原论,试图把系统拆解为明确的数学符号和公式。它的优势是透明、可分析,但问题也很明显,一旦系统变得复杂,它往往就不够用了。
连接主义(Connectionism)对应的则是多层感知机(MLP),也是当前的主流。这类方法完全是数据驱动的,通过大量数据去学习输入和输出之间的映射关系。它的表达能力非常强,但它内部是一团混沌,我们不知道它是怎么做到的。这就导致我们很难信任它,也很难从原理上改进它。
结构主义(Structuralism)是我试图定义的中间路线,对应像 KAN 这样的新架构。它仍然是数据驱动的,你可以像训练 MLP 一样训练它,让他泛化。但它可以被更好的解释。
《知识分子》:这里所说的“结构”,具体指的是什么?
刘子鸣:我可以用一个非常日常的例子来说明。比如我从家里去学校办公室,这个过程在最底层当然涉及复杂的肌肉控制,很难写成明确的数学公式。但在中间层的规划层面,我的行为是高度结构化的:先骑车,再爬楼,再转弯。这些都是可以被清楚区分的子任务或模块。
这种结构带来了巨大的优势:迁移能力。如果我明天要去一个新的地方,就不需要从头学习怎么走路,因为我知道怎么调用“骑车”、“转弯”、“爬楼”这些模块,配合地图,就能去任何地方。
我把这种模块称为“结构”。理想情况下,这些结构不应该由人类写进模型,而应当在训练过程中自行涌现。传统的符号主义是试图强行注入结构,由人来规定“你必须先骑车再爬楼”。这在复杂的现实中是行不通的。
我所提倡的结构主义关心的是:既然我们接受系统是数据驱动的,那么什么样的架构设计,能让结构最优化、最高效地“涌现(Emerge)”出来?我现在的担忧是,目前的 Transformer 或 MLP 架构,并没有为结构的涌现做优化。它们可能也能学会,但效率很低,而且很难自发形成清晰的模块。
03
**如今的发表文化在强迫大家追热点****
《知识分子》:刚才你说到当前的发表文化阻碍了大家对AI的探索。具体阻碍在哪里?
刘子鸣:现在的发表文化,在强迫大家去讲故事和追热点。
我们可能观察到了 1000 个有趣的现象,但为了发表论文就必须挑出其中一个,强行把它包装成一个惊天动地的大发现,并且一定要讲它跟大模型有什么关系。如果这个联系不显著,就得花大量时间去调参、去凑数据,把故事圆回来。这浪费了大量本该用于科学探索的时间。
现在的期刊发表模式,节奏已经明显跟不上学术信息交流的需要了。大家也意识到这个问题,所以AI领域开了更多学术会议,但即使是顶级会议,发表论文也面临同样的问题。
像 ICLR 或 NeurIPS,现在动辄就是六千篇论文。我有一次花了整整三天时间,把这些论文的标题一篇一篇看完,最大的感受是信息噪音太大了。在这种规模下,很难判断哪些工作真正重要,哪些只是技术细节的堆叠。
《知识分子》:正式的期刊发表或会议论文之外,你认为研究者是否应该尝试新的发表方式?或者说,有没有更高效的信息交换方式?
刘子鸣:我现在就是在自己的网站上持续更新博客。我觉得未来的学术交流的理想形式,可能会更接近 AI Safety 领域的一个社区网站,叫 LessWrong。它本质上是一个论坛形式的社区,结构上有点像早期的贴吧或论坛,大家发帖,下面的人基于你的内容继续展开。
这种机制带来的好处,是形成了一种自然的分工。举个例子,我在帖子里说,我观察到了一个现象,但现在还不会解释。下面可能就会有擅长数学的研究者,尝试从理论角度给出解释。或者我提出一个关于大模型的预测,但没有算力去验证,很快就会有掌握算力资源的人,把这个想法直接在大模型上跑一遍,给出实际观测结果。这样一来,现象、解释和验证就被不同的人高效地连接起来,逐渐形成一个有机的社区。
《知识分子》:这种社区形式,在学术界有现实的成功案例吗?
刘子鸣:如果说完整意义上的社区,目前可能还没有一个特别成熟的例子。但在交流方式上,博客已经有非常好的先例,比如陶哲轩老师的博客,还有苏剑林老师的“科学空间”。我自己其实也是在向他们学习。
系统的改变肯定是很难的,但是如果不改的话,我觉得AI学术界做的工作肯定会被工业界吊打,所以需要做一些范式上的改变。比如建立一个高质量的论坛,在评终身教职的时候,你在论坛上的贡献也可以折算成发表记录。或许应该有这样的机制,虽然具体实施起来肯定很复杂。
我希望能尽快给出一些有影响力的Physics Of AI的例子,但同时又不能太着急。太着急了,就不是把它当成科学问题去研究了;但太不着急,别人又觉得你做的东西没有时效性了。我的信仰是:长期来看,Physics Of AI是一条通往AGI的更快路径,虽然短期可能看起来更慢。虽然大家说“Science is slow”,物理学从牛顿到现在发展了400年,但AI的物理学不需要这么长的时间,如果我们肯改变发表文化的话。比如过去我一年可能就发表2-3篇1作文章,如今我每天都可以写一篇日报,而每篇日报中学到的东西其实和1篇文章也类似,只是少了些包装和讲故事,这大概是200倍的加速。
这也是我提出 Physics of AI 而不是 Math of AI 的原因。如果做 Math of AI,那是一个太长期的工程。而物理学家有时并不追求完全的定量精确,只要定性理解够了,就能快速获得有价值的洞见,这种定性或半定量的理解其实可以很快达成,不需要耗费太多时间。
《知识分子》:现在在工业界已经掌握了大量的资源,学界则是资源受限。那在这种情况下,大学究竟应该如何做研究呢?
刘子鸣:高校不应该去卷算力,去重复造轮子。高校能做的,恰恰是工业界没时间也没动力做的事,也就是现象的研究和机制发现。我认为学术界的任务是发现现象、建立预期,告诉工业界哪些方向值得去测,以及可能会遇到什么。
现在的大模型是个黑盒子。工业界的问题是,没办法知道应该看黑盒子的哪个部分。而我们在学术界,通过在玩具模型上获得的洞见,可以明确地告诉工业界:“你可以去看这个黑盒子的哪个具体部分,那里应该有一个什么样的东西。”我在 Toy Model 上观测到了一个很有意思的现象,或者我把这个现象归结出了原因,根据这个原因,我可以推测在大模型上应该会观察到什么现象。这样工业界就不用大海捞针了。
这是一个非常可验证的东西。这就回到了物理学家的标准:一个理论哪怕是错的都无所谓,只要它能被证伪,只要它是可测试的,它就是好的科学。学术界提供的是Testable Scientific Hypothesis(可测试的科学假设),然后让工业界去验证。
《知识分子》:这种高校和工业界合作模式的实现,有时间表吗?
刘子鸣:我希望在一到两年内,能有一些特别有影响力的Physics Of AI的例子出来。到那个时候,工业界也会更愿意合作,甚至工业界自己会专门开一些实验室来做这种物理层面的研究。到那时资源就不是问题了。
但在现阶段,学术界和工业界可以有一种分工。虽然验证超大规模模型确实需要工业界的资源,但至少在学术界,我们完全可以独立进行这些现象学的研究。先发现现象、总结规律,再去指导规模化。
亲爱的读者们,不星标《知识分子》公众号,会错过每日科学新知!星标《知识分子》,紧跟前沿科学,一起探索科学的奥秘吧!
请戳上图卡片添加星标

关注《知识分子》视频号
get更多有趣、有料的科普内容
****
END
**


