Lex Fridman硬核访谈,5万字2026 AI全景报告

作者|林易
编辑|重点君
2月1日,知名科技播客博主Lex Fridman与两位机器学习领域的重量级嘉宾开展了一场深度对话。Sebastian Raschka是知名机器学习研究员与教育家,Nathan Lambert是艾伦人工智能研究所(AI2)的后训练负责人,同时也是RLHF领域的权威专家。两位嘉宾恰好代表了当前AI领域的两大核心关切:原理与技术路线。
这场长达数小时的硬核访谈信息密度极高,既是对过去一年AI技术突破的复盘,更是对2026年技术风向的深度预判。我们给你划下重点:
第一,关于中美AI竞争:2025年的最大变量是DeepSeek时刻,中国公司在开源权重模型上已占据主导地位。
2025年1月发布的DeepSeek R1被视为中美AI竞争的分水岭,该模型以更低的算力成本达到了接近最先进(SOTA)的性能,震惊了业界。Nathan Lamber说,在开源模型方面表现强势。DeepSeek、阿里Qwen、MiniMax、Kimi等公司发布了大量高性能开源模型,赢得了开源社区的青睐。
相比之下,美国曾经的开源标杆Llama却在这一年迷失了方向。Sebastian Raschka说,Meta试图通过构建巨大的Llama 4模型在基准测试中击败ChatGPT,但陷入刷榜陷阱,忽略了AI领域真正需要的是轻量级、可用的模型。这导致Llama留下的生态空白正在被中国的开源模型迅速填补。
第二,主要AI实验室与模型现状:Anthropic最有序,OpenAI内部混乱,Meta开源策略可能动摇。
Anthropic:Claude Opus4.5是当前顶流,特别是在编程方面表现出色,深受开发者喜爱。Anthropic组织最有序、最不混乱。
Google:Gemini 3 虽发布时营销声量不如对手,但性能极其强大。Google的优势在于拥有完整的全栈垂直整合能力(TPU芯片、云计算、模型、应用),利润率极高,不依赖英伟达的高价GPU芯片。
OpenAI:尽管内部混乱,但仍具有极强的交付能力。GPT-5系列(包括o1/o3推理模型)通过推理时计算节省了大量成本,并定义了新范式。
Meta:LLaMA系列似乎面临内部政治和激励问题,未来是否会有开源的LLaMA5存疑,Meta的开源策略可能在动摇。
第三,关于技术范式转移:预训练的红利正在消退,AI技术战场转向后训练和RLVR。
Nathan Lamber认为,预训练已经变得极其昂贵且边际效益递减,而现在的模型能力提升重点源自后训练阶段的创新。2025年最大的技术突破是带有可验证奖励的强化学习(RLVR)。这彻底改变了模型的训练方式。
传统的基于人类反馈的强化学习(RLHF)更多是调整模型的语气和风格,属于微调偏好,容易触及天花板。RLVR则是让模型在数学、代码等有客观答案的领域进行大规模试错。通过“生成-评分”的迭代循环,模型能像人类学生一样,在数万次的练习中自我修正,从而解锁预训练中已有的知识。
预训练是计算密集型(算力受限),而后训练阶段的RLVR则更像是内存密集型(内存受限),更看重GPU的运行时间而非单纯的算力堆叠。
第四,关于AI编程:AI催生Vibe Coding,软件工程正从写代码转向系统设计。
AI对编程领域的重塑远超预期。Vibe Coding让开发者不再纠结于具体的代码细节,而是通过自然语言描述需求,快速生成并修改代码Diffs。在这种模式下,人类的角色从代码编写者转变为系统设计师和审查者。
Nathan Lambert预测,随着AI能力的提升,软件开发将变得高度工业化。虽然完全自动化的超级智能编程因数据分布的参差不齐而难以在短期内完美实现,但工具的门槛正在急剧降低。未来,一个不懂底层代码的人,只要拥有清晰的系统设计思维,利用Claude Code或Cursor等工具,就能构建出复杂的软件系统。
第五,关于Scaling Laws:规模定律并没有失效,但维度变得更加丰富了。
针对AI发展是否遇到瓶颈的质疑,嘉宾们给出了否定的回答。Nathan Lambert认为,Scaling Laws依然是技术发展的基石,但现在的扩展已从单一的预训练规模分裂为三个维度:
传统规模定律:继续堆叠模型参数和数据集。
强化学习规模:可以进行多长时间的试错学习。
推理侧算力:让模型在回答前思考更久,生成更多的思维链Token。
这种多维度的扩展策略,使得科技巨头们在2026年依然敢于投入数百亿美元建设吉瓦级规模的算力集群。Sebastian Raschka形象地比喻:在一个拥有无限算力的理想世界里,你会把这三个维度的旋钮全部拉满;但在现实中,这变成了一场关于性价比的权衡游戏,大公司需要考虑是花1亿美元训练更大的模型,还是花200万美元做推理侧扩展。
第六,关于AGI的终局:单一通用模型的梦想已经破灭,未来属于多智能体与专业化模型。
对于未来,嘉宾们打破了一个全能模型统治世界的幻想。Nathan Lambert认为,未来的AI生态不会是赢家通吃,而是一个分工明确的系统。
未来不会依赖一个单一的ChatGPT去处理所有事务,而是会有专门负责法律、医疗、编程的垂直模型。现实正在演变为人们针对不同任务调用不同的Agent。未来的数据中心里,将是许多专门的AGI在相互交流、管理和执行任务。

以下为Lex Fridman播客访谈实录:
1、中国 vs 美国:谁将赢得 AI 竞赛?
Lex Fridman:以下是一场关于人工智能前沿动态的对话,涵盖了过去一年AI领域激动人心的突破,以及我们对未来一年的展望。虽然内容有时会涉及深度的专业技术,但我们力求让非专业人士也能听懂,同时绝不降低内容的专业深度。我很荣幸能邀请到AI社区中我最喜欢的两位嘉宾:Sebastian Raschka 和 Nathan Lambert。他们都是备受尊敬的机器学习研究员、工程师,同时也是优秀的传播者、教育者和作家。Sebastian著有两本我强烈推荐给初学者和专家的书:第一本是《从零开始构建大语言模型》(Build a Large Language Model From Scratch),另一本是《从零开始构建推理模型》(Build a Reasoning Model From Scratch)。我坚信在机器学习和计算机科学领域,学习并理解某项事物的最佳方式就是亲手从零开始构建它。Nathan是艾伦人工智能研究所的后训练负责人,也是关于人类反馈强化学习(RLHF)权威著作的作者。
Lex Fridman:让我们从“DeepSeek时刻”这个视角切入。这大约发生在一年前的2025年1月,当时中国公司DeepSeek发布了开放权重的DeepSeek R1。我认为可以公平地说,它以更少的算力和更低廉的价格,达到了接近或持平SOTA(最先进)的性能,惊艳了所有人。从那时起到今天,AI领域的竞争在研究和产品层面都变得异常激烈,这种趋势一直在加速。让我们今天探讨所有这些话题。首先我想问一个尖锐的问题:在国际层面上谁处于领先地位?是中国的一系列公司,还是美国的公司?Sebastian,你认为谁是赢家?
Sebastian Raschka:“赢”这个词涵盖面很广。既然你提到了DeepSeek时刻,我确实认为DeepSeek通过分享开源模型,绝对赢得了那些致力于开放权重模型(open weight models)的人们的心。我认为“赢”包含多个时间尺度:当下、明年,还有十年后。我唯一可以肯定的是,我不认为到了2026年的今天,还会存在哪家公司能掌握其他公司无法触及的独占技术。主要原因是研究人员频繁地更换工作和实验室,人才在不断流动。因此,我不认为在技术获取层面会有明显的赢家。然而,差异化因素将体现在预算和硬件限制上。这些创意本身并非专利,实现这些创意的方式和资源才是关键。所以,目前我看不到一个“赢家通吃”的局面。
Lex Fridman:Nathan,你怎么看?
Nathan Lambert:你可以看到各个实验室在目标投入上存在差异。为了标记我们录制的时间点,目前针对Anthropic的Claude Opus 4.5模型的炒作简直疯狂。我在过去几周一直用它构建东西,它的热度甚至有点像个“梗”了。这很有趣,因为这种热度非常自然。如果我们回到几个月前,Google发布Gemini 3时的营销手段和惊艳程度都非常高。但随后11月底Claude Opus 4.5发布,热度一路攀升,感觉大家对Gemini 3的讨论反而没那么多了,尽管它刚推出时被视为Google夺回AI架构优势的时机。Gemini 3依然是一款出色的模型,我目前仍在使用它,只是其差异化程度较低。
我同意Sebastian的观点,创意空间是非常流动的。但在文化层面上,Anthropic以敢于在代码能力(即Claude Code)上重注而闻名,目前效果很不错。所以我认为,即使想法可以自由流动,但很大程度上仍然受限于人力投入以及组织的文化氛围。Anthropic目前看起来是表现得最不混乱的,这算是一个小小的优势。另一方面,在技术层面,中国有很多令人惊叹的技术。除了DeepSeek之外,还有更多的实验室。DeepSeek在中国引发了一场运动,类似于ChatGPT在美国引发的浪潮,当时所有产品都加上了聊天机器人。现在中国有大量科技公司正在发布实力强劲的前沿开源权重模型,以至于我会说DeepSeek在某种程度上正在失去其作为中国卓越开源模型制作者的桂冠,像智谱AI的GLM模型、MiniMax的模型以及月之暗面(Kimi),尤其是在过去几个月里,表现得更加出色。
Lex Fridman:所以像DeepSeek这样的一些模型因为开源权重而受到了大众的喜爱。你认为中国公司发布开放权重模型的策略会坚持多久?
Nathan Lambert:我认为会持续几年。就像在美国一样,目前还没有一个清晰的商业模式。我写关于开放模型的文章有一段时间了,中国公司也意识到了这一点。他们很聪明,也看到了同样的限制:许多美国顶尖科技公司出于安全担忧,不会购买中国公司的API订阅服务。这在技术领域是长期存在的习惯。因此,这些公司的从业者将开放权重模型视为一种能力,以此来通过这种方式参与到美国巨大且不断增长的AI支出市场中。他们对此有着非常务实的认识,而且这对他们很有效。但是开发这些模型非常昂贵,所以我预计在某个时间点会出现整合,但我不认为这会发生在2026年。2026年开放模型构建者的数量将比2025年更多,而且其中许多著名的构建者将来自中国。
Lex Fridman:Sebastian,你刚才想补充什么吗?
Sebastian Raschka:是的。你提到DeepSeek失去领先地位,我在某种程度上认同,但也必须考虑到,我认为他们仍然处于微弱的领先地位。其他模型的情况并非是DeepSeek变差了,而是其他模型正在借鉴DeepSeek的思路。例如你提到的Kimi,采用了相同的架构进行训练。我们再次看到了这种“跳跃式领先”的情况:一个人发布了某个东西,另一个紧随其后。最新的模型往往就是最好的模型。我认为这又回到了那个事实,不会有一个绝对的赢家。
Nathan Lambert:是的。我们还会看到中国公司有着不同的激励机制。比如DeepSeek非常神秘,而其他一些初创公司则不同,像MiniMax和零一万物(01.AI)这类公司已经提交了IPO文件,正努力争取西方市场的关注,并在那里进行了大量推广。DeepSeek是由幻方量化(Highflyer Capital)这家对冲基金创立的,我们并不确切知道他们将这些模型用于什么,或者他们是否在意商业化。
Lex Fridman:他们在沟通方面很神秘,但在描述模型工作原理的技术报告方面并不保守,在这方面他们仍然保持开放。我们还应该谈谈对Claude Opus 4.5的炒作。这其中包含了一些层面,即它作为X(原Twitter)信息茧房里的宠儿的热度,与实际使用该模型的人数之间存在差距。我认为可以公平地说,ChatGPT和Gemini专注于那些仅仅想使用工具解决日常问题的广泛用户群体,那个群体非常庞大。所以关于编程能力的炒作可能并不能完全代表实际的大众使用情况。
Sebastian Raschka:很多使用模式也是出于知名度和品牌,同时也形成了一种肌肉记忆。ChatGPT已经存在很长时间了,人们习惯了使用它,这像一种飞轮效应。还有一个有趣的观点是LLM的定制化。例如ChatGPT有记忆功能,你可能有一个订阅用于处理个人事务,但你不一定想在工作中使用同一个账号。因为私人生活和工作之间存在界限。我认为这也是一个有趣的切入点,你可能会拥有多个订阅:一个只用于编写纯净的代码,不包含任何个人照片或爱好;另一个则是你个人的东西。我认为未来会是多个并存的。
2、ChatGPT vs Claude vs Gemini vs Grok:谁正在领先?
Lex Fridman:你认为哪个模型赢得了2025年?又有哪些模型将赢得2026年?
Nathan Lambert:在消费级聊天机器人的语境下,问题在于你是否愿意押注Gemini而非ChatGPT。直觉告诉我,这似乎是一个有点冒险的赌注,因为OpenAI一直是该领域的领先者,这在科技行业会带来诸多优势。回顾2025年,势头似乎在Gemini这边,但我认为他们当时的起点太低了。愿Bard以及那些早期的尝试安息吧。他们能克服组织内部的混乱并实现这一目标,确实值得称赞。但与此同时,也很难去赌OpenAI会输。因为他们虽然表面上显得混乱,但非常擅长让项目落地。就我个人而言,我对GPT-5的评价褒贬不一,但它肯定通过高端线路功能的路由机制为他们节省了大量资金,即大多数用户不再像以前那样消耗昂贵的GPU资源了。
Lex Fridman:你对2026年怎么看?谁会胜出?
Nathan Lambert:尽管有风险,我还是要说,我认为Gemini将继续追赶ChatGPT的进展。当两者都以如此极端的规模运行时,Google的规模优势在于它能够更好地将研究与产品分开。而OpenAI在运营上常被传非常混乱,一直在追求高影响力的事物,这是典型的创业公司文化。在软件和企业端,我认为Anthropic将会延续他们的成功。Google Cloud拥有丰富的产品线,Gemini这个品牌对他们的建设至关重要。Google Cloud将继续保持良好的发展势头,但在生态系统中解释清楚这一点会更加复杂,因为那是与Azure和AWS的竞争。
Lex Fridman:所以在基础设施方面,你认为TPU带来了优势?
Nathan Lambert:很大程度上是因为NVIDIA芯片的利润率高得离谱,而Google可以从上到下开发一切来适配他们的技术栈,不需要支付这部分利润空间。而且他们在建设数据中心方面拥有先发优势。因此,在这些既需要漫长前置时间,又有着极高利润门槛的领域,Google拥有一种历史性的优势。如果将出现新的范式,它最有可能来自OpenAI,因为他们的研究部门一次又一次地证明了这一点,比如Deep Research、Sora、o1推理模型。这种落地全新研究理念或产品的能力是OpenAI的核心特质。很难赌他们会输,但我认为今年的重点将很大程度上围绕规模化(Scaling)和优化模型中那些“垂手可得的果实”。
Lex Fridman:显然,在智能与速度之间存在权衡。这就是ChatGPT-5在幕后试图解决的问题。广大公众到底是想要智能,还是想要速度?
Sebastian Raschka:我觉得这实际上是一个很棒的多样化选择。就我个人的使用习惯而言,大多数时候当我查阅某些内容时,我会用ChatGPT问一个简单的问题,快速获取信息。对于大多数日常任务,我会使用快速模型。现在自动模式已经做得相当不错了。但有时我也想要Pro模式。例如当我写好东西后,我会把它放入ChatGPT并说:“做一个非常彻底的检查。我的所有引用、想法、格式都正确吗?”这种情况下我不需要立即得到答案,可以让它运行着,回头再看。这就是拥有这种选项的重要性。如果每个查询都要让我等30分钟甚至10分钟,我一定会疯掉的。
Nathan Lambert:那就是我。我坐在这儿简直要疯了,你居然还在用路由模式和非思考模型(non-thinking models)。我心想:“你是怎么受得了那种东西的?”我已经重度使用ChatGPT很长时间了,从来没碰过非思考模型。我觉得它的语气和出错的概率似乎更高。这可以追溯到OpenAI发布o3的时候,那是第一个能够进行深度搜索、整合多个来源的模型。我已经习惯了那样。所以在处理工作信息查询时,我只会使用GPT-5.2 Thinking或Pro版本。我经常会同时进行五个Pro查询,寻找特定的论文或代码参考。
Sebastian Raschka:我有一个有趣的例子,当时我只需要尽快得到答案。在这次旅行之前的播客中,我家里运行着一个本地GPU,我想运行一个长时间的RL(强化学习)实验。通常我会拔掉电源,但我如果不小心拔掉了GPU电源,当时我妻子已经在车里等着了,我心想:“噢,糟了。”我想要以最快的速度写出一个Bash脚本,用来运行不同的实验和评估。我知道怎么用Bash终端,但在那一刻我只需要大概10秒钟把命令给我。所以我用了不带思考过程的最快模型。它给了我Bash命令,我需要将不同的脚本串联在一起,这就解决了问题。
Nathan Lambert:我用Gemini处理这类需求。我会用思考模型处理所有信息类事务,然后用Gemini处理追求速度的任务,或者那些通过Google搜索能更好解释的内容。Gemini应用也变得好多了。对于代码和任何形式的哲学讨论,我会使用Claude Opus 4.5,而且总是开启扩展思考(extended thinking)。扩展思考和推理时间扩展(inference time scaling)只是让模型变得稍微更聪明一点的方式。然后有时我会使用Grok来获取实时信息,或者在AI Twitter上寻找内容。Grok-4 Super Heavy发布时表现非常出色,但我后来因为习惯用ChatGPT App就慢慢把它忘了。
Lex Fridman:是的,我确实也在用Grok-4 Heavy用于调试。对于那些其他模型无法解决的硬核调试问题,我发现它是最擅长的。这很有趣,因为你说ChatGPT是最好的界面,对我来说Gemini是更好的界面。我想是因为我爱上了它们最出色的“大海捞针”(needle in the haystack)能力。如果我放入包含大量上下文的内容并寻找非常具体的信息,Gemini一直表现最好。这就像有一种阈值效应:你会坚持使用一个模型,直到它做了一件蠢事,然后你就会换个工具。
Sebastian Raschka:没错,你会一直使用它直到它出故障。就像我们使用浏览器一样,你不会在不同浏览器中输入同一个网址对比,除非网页无法渲染。关于长上下文,我之前也是为了这个功能使用Gemini,但GPT-4o发布时展示了惊人的长上下文评分提升。现在我更看好GPT-5.2的长上下文。
3、最适合编程的AI
Lex Fridman:我们还没怎么提到编程。那是另一个很多人非常关注的使用场景。所以我基本上是一半一半地在使用Cursor和Claude Code。你们呢?
Sebastian Raschka:我用的是VSCode的Codex插件。它非常方便,就像一个可以访问你代码库的聊天界面。我知道Claude Code似乎有点不同,它更具智能体(agentic)特征,能为你完成整个项目。我目前还没到能完全放心使用它的程度,也许是因为我有控制欲,我希望能看到具体发生了什么。Cursor对我来说目前处于一个恰到好处的平衡点,它在帮助我,但没有完全取代我的工作。
Lex Fridman:我使用Claude写代码的原因之一是为了培养用英语编程的能力。这种体验从根本上是不同的。你不再是微观管理代码生成的细节,而是查看diff。如果你使用Cursor这种IDE,你可以看到修改和变更代码时的差异。去观察、阅读并深入理解代码,而不是仅仅停留在设计层面进行宏观引导,这是思考编程过程的另一种方式。Claude Code似乎更好地利用了Claude 3.5 Opus。
Nathan Lambert:这对人们来说是一个很好的并排对比。你可以同时打开Claude Code、Cursor和VSCode,选择相同的模型并提出问题。Claude在代码能力那个领域要出色得多。
Lex Fridman:好的,我们应该说明你们两位在多个领域都是名副其实的专家,包括研究员、程序员、教育者以及作家。Nathan,希望你能很快出一本关于RLHF的书。
Nathan Lambert:已经可以预订了,而且有完整的数字预印本。我只是在为实体书做美化和更好的排版。
Lex Fridman:Sebastian Raschka是一位机器学习研究员和作家,出版了多本具有影响力的书籍。其中有两本我想特别提一下:一本是我强烈推荐的《从零开始构建大语言模型》,以及新书《从零开始构建推理模型》。我感到非常兴奋,因为从头开始构建东西是学习最有效的方式之一。
Sebastian Raschka:说实话,从头开始构建一个LLM非常有趣。这也是一个学习很多东西的过程。正如你所说,这可能是了解事物真实运作机制的最佳方式。你可以看图表,但图表可能会有错误;你可以看概念,但可能会误解。但如果你看到代码并且能运行,你就知道它是正确的,它是精确的。这就是编程背后的魅力,它不会撒谎。即使是数学,我认为书里也可能存在你永远察觉不到的错误。因为你在读书时并没有实际运行那些数学计算,所以无法去验证它。而代码的优势就在于,你可以动手验证。
Lex Fridman:没错,我同意你关于《LLM From Scratch》这本书的看法。屏蔽掉互联网等一切干扰,全身心投入到书本中,这种感觉确实很好。但是,我也读过一些书,比如历史书。某种程度上,读书让你不再感到孤独,这真的更有趣。不过在编程方面,我认为与LLM一起编程确实更有意思。其实我认为与LLM一起阅读也更有趣。你说得对。不过这种干扰应该被降到最低。也就是说,你是利用LLM来从根本上丰富体验,通过它增加更多的上下文。也许吧。我只是觉得,在小规模应用上,LLM带给我的“顿悟时刻”频率真的很高。
Sebastian Raschka:确实如此。我也想修正一下我的观点,我并不是建议完全不使用LLM。我建议的是分阶段进行:先进行一轮离线、专注模式的学习,这时候虽然我会记笔记,但我会努力克制住立即查阅资料的冲动;之后我会进行第二轮。对我来说,以这种方式组织学习更有效。有时候问题在后续章节中自然会得到解答,而有时候,让问题沉淀一下、多思考一会儿也会有所帮助。当然,每个人的偏好不同。我强烈建议在阅读书籍时使用LLM,只是对我而言,它不是首选步骤,更像是第二轮的复习工具。
Lex Fridman:作为一个建议,我的做法恰恰相反。我喜欢在开始时就使用LLM。我想先理清整个背景,比如了解我正要踏入的是一个什么样的世界。但我会尽量避免从LLM的界面跳转到Twitter或博客之类的网页,因为那样你就真的会陷入无底洞。你会读到某人的观点,或者看到关于某个特定话题的激烈争论,突然间你就脱离了学习状态,进入了互联网和Reddit的领域。但如果你纯粹是让LLM为你提供“这件事为什么重要”的背景,以及大局观是什么,这会非常有帮助。虽然有些书本身也很擅长搭建背景,但并不总是如此。
Nathan Lambert:这就是为什么我喜欢ChatGPT的桌面应用,因为它把AI整合到了你的电脑工作中,你可以全身心投入其中,而不只是把它当作杂乱无章的浏览器标签页中的一个。我认为Claude Code以及类似的特定工具在营造这种愉悦感方面做得很好。作为一种产品设计,它非常吸引人,充当了一个让你的AI走向世界的界面。Claude与OpenAI的Codex之间有一种难以言表的区别:Claude给人一种温暖且引人入胜的感觉;而Codex虽然通常也同样出色,但总让人觉得在细节处理上稍微有点粗糙。相比之下,Claude Code让构建东西变得很有趣,尤其是从零开始的时候,你完全不用操心,因为你相信它一定能做出来。
这对搭建网站和类似的数据刷新工具非常有用。我用它来进行数据分析。比如我的博客需要爬取Hugging Face的数据,以便持续保存每个数据集和模型的下载量。现在我们有了这些数据,Claude就像是说:“没问题,我已经利用这些数据做好了分析。”我当时心想,这原本得花掉我好几天的时间。我有足够的局势感知能力去判断它生成的趋势是合理的,并且可以去核查。这确实是一种美妙的交互界面,你拥有了一个中间层,而不必亲自去处理那些维护Web项目时必须面对的底层繁琐工作。

4、开源 vs 闭源 LLMs
Lex Fridman:好的。刚才我们讨论了一系列关于闭源模型的话题。让我们聊聊开源模型。跟我说说开源LLM的格局。哪些模型比较有趣?哪些让你印象深刻,为什么?我们已经提到了DeepSeek。
Nathan Lambert:你想看看我们凭记忆能说出多少个吗?
Lex Fridman:来吧,不用看笔记。
Nathan Lambert:DeepSeek、Kimi、MiniMax、智谱AI(Zhipu AI)、面壁智能(ModelBest)。这就已经是不少中国模型了。然后我们把Mistral AI、Gemma也加进来。还有GPT-OSS,也就是ChatGPT相关的开源模型。实际上,NVIDIA也有一个非常酷的模型叫Nemotron 3。特别是在年底这段时间,涌现了很多东西。Qwen(通义千问)也是一个显而易见的名字。你至少可以列出10个中国的和10个西方的模型。
OpenAI实际上也发布了他们的第一个开源模型——隔了很久,自GPT-2以来。这就是我当时写关于“OpenAI发布开源模型”的文章时所指的。当时人们都说“别忘了GPT-2”,我觉得这很有趣,因为那完全是不同的时代了。但GPT-OSS实际上是一个非常强大的模型,并且能做到其他模型做得不太好的一些事情。
出于私心,我也想推介一些西方公司。在美国和欧洲都有完全开放的模型。我在艾伦人工智能研究所工作,我们一直在构建OLMo,并发布了数据、代码以及所有相关内容。现在我们面临着真正的竞争,人们正致力于发布所有内容以便他人训练模型。例如基础模型研究所(Institute for Foundation Models)推出的LM360,他们发布了K2模型。Apertus是一个瑞士的研究联盟。Hugging Face推出了SmallLM,非常受欢迎。此外,NVIDIA的Nemotron也已经开始发布数据。还有斯坦福大学的Marin社区项目,它建立了一套流程,让人们可以通过提交GitHub issue来实现新想法,并使其在稳定的语言建模栈中运行。所以在2024年,这个领域的名单要比以前丰富得多。我认为这对于更多人参与进来并理解语言模型是一件好事。
目前还没有一家中国公司有类似的对应机构。我要指出的是,中国的开源语言模型往往规模大得多,这使得它们作为混合专家模型(MoE)具有更高的峰值性能。而许多我们非常喜欢的西方模型,无论是Gemma还是Nemotron,往往是来自美国的较小模型。不过这种情况正开始改变。Mistral Large 3在12月发布了,它是一个巨大的MoE模型,架构与DeepSeek非常相似。还有一家名为Reka的初创公司。Nemotron和NVIDIA已经预告了参数量远超1000亿甚至达到4000亿级别的MoE模型,将在2026年第一季度左右推出。所以我认为,在“人们使用中国还是美国的开源模型”这一问题上的平衡状态,今年将会发生改变。这是我个人非常期待看到的。
Lex Fridman:首先,非常佩服你能叫出这么多名字。LLaMA是你命名的吗?
Nathan Lambert:不是我。
Lex Fridman:好的。你能提到有哪些表现突出的有趣模型吗?你刚才提到了Qwen3显然是一个佼佼者。
Sebastian Raschka:这一年几乎是以DeepSeek的两个动作作为开端和结尾的:DeepSeek V3和R1。DeepSeek V3是在2024年12月发布的,R1紧随其后。我喜欢它们的地方在于,它们总是在架构上有一些有趣的微调,这是其他公司所不具备的。
除此之外,如果你想选择熟悉但性能非常出色的模型,Qwen3是个好选择。另外我还提到了GPT-OSS。我认为GPT-OSS的有趣之处在于,它算是第一个在训练时就充分考虑到“工具调用(Tool Use)”的公开权重模型。我确实认为这在某种程度上是一种范式转移,之前的生态系统尚未完全准备好。
所谓“工具调用”,是指LLM能够进行网页搜索,或者调用Python解释器。我认为这是一个巨大的突破。因为关于LLM最常见的抱怨之一就是“幻觉(Hallucinations)”。在我看来,解决幻觉问题的最佳方法之一,就是不要试图让模型总是去记忆信息或凭空捏造。对于数学问题,为什么不直接让它使用计算器应用或Python呢?如果我问LLM“谁赢得了1998年的世界杯?”,与其让它去死记硬背,不如让它完全通过搜索来回答。它会进行工具调用来访问Google,也许会找到FIFA官网,然后告诉你“哦,是法国队”。它能可靠地为你获取信息。
所以我认为这是一个巨大的突破,目前尚未被开源、开放权重生态系统充分利用。很多人不使用工具调用模式,首先是因为信任问题。你不想在自己的电脑上运行一个拥有访问工具权限的模型,因为它可能会抹掉你的硬盘。所以你可能需要将其容器化。但我确实认为,拥有这种能力是未来几年非常重要的一步。
Lex Fridman:有几件事简要说一下。首先,谢谢你定义了你所说的“工具调用”的具体含义。在讨论这些概念时,这样做非常好。即使是像MoE这样已经非常成熟的概念,你也得说明那代表“混合专家模型(Mixture of Experts)”,建立起直觉,让人们理解那意味着什么,它是如何被实际应用的,以及有哪些不同的变体。那么,开放模型如此爆发式增长意味着什么?你的直觉是怎么样的?
Nathan Lambert:如果你发布一个开放模型,首要目的就是希望人们去使用它。紧随其后的是透明度和信任等因素。当你观察中国时,最大的原因在于他们希望全球用户都能使用这些模型。如果你观察美国以外的地区,很多人不会为软件付费,但他们可能拥有计算资源,可以把模型部署在本地运行。此外,还有一些数据是你不想发送到云端的。因此,首要任务是让人们开始使用AI,或者使用你的AI,因为如果没有模型访问权限,他们无法做到这一点。
Lex Fridman:我想我们应该明确说明,我们一直在讨论这些中国模型和权重开放模型,通常情况下,它们的运行方式是在本地运行。所以这并不是说你把数据发送到了中国,或者发送给了硅谷的任何开发者。
Nathan Lambert:没错。许多美国初创公司通过托管这些来自中国的模型并进行销售来赚钱,这被称为卖Token,意味着有人会调用该模型来完成工作。
我认为另一个原因是,像OpenAI这样的美国公司非常缺乏GPU。他们已经达到了GPU的极限。每当他们发布新产品时,总是在说GPU资源非常紧张。在GPT-4o的发布环节中,Sam Altman曾暗示过,发布这个是因为可以利用用户的GPU,他们不必动用自己的资源,却仍然可以获得分发渠道。这对他们来说没有任何成本,是一个非常现实的考量。
Sebastian Raschka:对于用户来说,有些用户只是像使用ChatGPT那样在本地使用模型。但对于公司而言,拥有这些模型是一个巨大的突破,因为你可以定制它们,可以通过后期训练添加更多数据。比如将它们专门化为法律、医疗模型等。
此外,中国权重开放模型的吸引力在于,它们的许可协议往往更加友好,通常是无限制的开源许可(如Apache 2.0)。而如果我们使用像LLaMA或Gemma这样的模型,其实是附带条件的。比如在用户数量方面有一个上限,如果你超过了几百万用户,就必须向Meta之类的公司报告财务状况。虽然它是免费模型,但确实存在束缚。人们更喜欢没有束缚的东西。除了性能之外,这也是为什么来自中国的开源权重模型如此受欢迎的原因之一:你可以直接使用它们,没有任何陷阱。
Nathan Lambert:在这方面,生态系统已经变得更好了。当你打开Perplexity并看到它显示“在美国托管的Kimi-K2 Thinking”时,这真的很有趣。这正是我们所讨论的现象。Kimi-K2是一款非常受欢迎的模型,人们评价它在创意写作以及处理软件方面表现出色。这些就是人们在不同模型中发现并喜爱的细微特质。
Lex Fridman:那么,在这些模型探索过的想法中,有哪些是你觉得特别有趣、值得聊聊的吗?也许我们可以按时间顺序来谈。
Sebastian Raschka:首先当然是DeepSeek。如果我们聚焦2025年,R1其实是基于前一年(2024年12月)发布的DeepSeek V3。
在架构方面,令人着迷的是,你仍然可以像我在《从零开始构建LLM》项目中做的那样,从GPT-2开始,通过添加组件将其转化为另一个模型。它们之间有着非常紧密的血脉联系。DeepSeek的独特之处在于混合专家模型(MoE)——当然,并不是他们发明了MoE,我们稍后可以详细聊聊MoE具体意味着什么。除了MoE,他们还采用了多头潜在注意力(Multi-head Latent Attention, MLA),这是对注意力机制的一种改进。
我想说,在2025年,这些权重开放模型之间的主要区别因素在于针对推理或KV缓存(KV cache)大小所做的各种微调。其目的主要是为了让长上下文的成本更低,通过缩小KV缓存的体积来实现。
我们可以做哪些调整?大部分集中在注意力机制上。DeepSeek使用了多头潜在注意力。还有一种“分组查询注意力(Group Query Attention, GQA)”,目前仍然非常流行,这也不是新发明的。OLMo-3使用了滑动窗口注意力(Sliding Window Attention)。这些不同的微调使得模型各不相同。但我曾把它们全部放在一篇文章里进行过对比,发现它们惊人地相似。只是在中间层有多少次Transformer块的重复等数字上有所不同。这就像是微调了一些小旋钮,但无论如何它都能奏效。你可以移动归一化层来获得性能提升。OLMo在消融实验(Ablation Studies)中展示了移动组件对模型的具体影响。
实现Transformer并使其保持运行的方法有很多。目前盛行的大思路包括MoE、MLA、滑动窗口注意力以及GQA。到了年底,研究重点转向了使注意力机制能够随推理Token数量线性扩展。例如Qwen2.5-1M增加了一个门控Delta网络(Gated Delta Net),有点像受到了状态空间模型(SSM)的启发,本质上是用一种更廉价的操作取代了昂贵的注意力机制。

5、Transformers:2019 年以来 LLMs 的演进
Lex Fridman:也许退一步来谈谈Transformer架构的总体情况会很有帮助。
Sebastian Raschka:好的,也许我们应该从GPT-2架构开始。Transformer源自《Attention Is All You Need》这篇论文,原始架构包含编码器(Encoder)和解码器(Decoder)。而GPT只专注于解码器部分。它本质上仍然是一个神经网络,内部包含注意力机制。你一次预测一个Token。将其通过一个嵌入层(Embedding Layer),接着是Transformer块(包含注意力模块和全连接层),中间还有一些归一化层。
从GPT-2发展到现在,出现了例如混合专家(MoE)层。MoE并不是新发明的,其核心思想是在不增加每次前向传播算力消耗的情况下,使模型参数总量变大。
在Transformer内部有一个全连接层(可以想象成微型多层感知器MLP),它非常昂贵,因为它是全连接的。如果你有一千个输入、一千个输出,那就是一百万个连接。MoE的想法是将这个全连接层扩展为多个前馈网络。假设你有256个这样的网络(专家),但你不会同时使用所有的。你有一个路由器(Router),它会根据输入Token决定:“好的,使用这个专家网络会很有用。”
这就叫混合专家。根据输入内容,比如是数学密集型任务,还是英译西任务,它可能会咨询不同的专家。当然,这种分工并不像“数学专家”或“语言专家”那样界限分明,它是一个更模糊的概念。但其核心思想是你把更多知识封装进了网络,但并非所有知识都会被时刻调用,因为那样太浪费了。在Token生成过程中,路由器会有选择性地分配任务。这增加了复杂性和训练难度,有很多环节可能出错。这可能也是为什么OLMo-3仍然使用稠密(Dense)模型的原因。稠密是指只有一个全连接模块,并且始终被利用;而MoE被称为稀疏(Sparse),因为只有部分专家是活跃的。
Lex Fridman:从根本上说,从GPT-2到现在,有多少新想法被实现了?比如,这些架构之间到底有多大区别?
Sebastian Raschka:想象一下GPT-OSS中的分组查询注意力(GQA),它只是从多头注意力(MHA)微调而来的。或者他们把LayerNorm换成了RMSNorm,但这只是一种不同的归一化方式。非线性激活函数从Sigmoid换成ReLU,这也并没有从根本上改变网络。
这只是微调,做了一点点调整。我会说,它在本质上并没有那么大的不同,仍然是相同的架构。你可以通过添加这些改动,从一个模型演进到另一个。例如,我那本书里用的是GPT-2模型(约1.2亿参数),但在奖励材料中,我几乎从零开始构建了Gemma 3.0。我总是从GPT-2模型开始,然后调整组件,就能从一个模型演进到另一个。从某种意义上说,这是一种传承。
Lex Fridman:这真的很有意思。当你退一步审视,你会发现AI领域的发展如此迅猛,但与此同时,从根本上讲,架构并没有发生翻天覆地的改变。那么,这种剧烈变革和进步的动能究竟源自何处?收益究竟在哪里?
Sebastian Raschka:在开发或训练网络的过程中存在不同的阶段。在过去GPT-2的时代,只有预训练(Pre-training)。而现在,我们有了预训练、中训(Mid-training)和后训练(Post-training)。所以我认为,我们目前正处于“后训练聚焦”阶段。当然,如果你能利用更好、更高质量的数据进行扩展,预训练仍然会带来优势。
但是,我们现在拥有了GPT-2所不具备的能力解锁。例如ChatGPT,它本质上是一个GPT-3模型。就架构而言,GPT-3与GPT-2是相同的。新的突破在于增加了有监督微调(SFT)以及人类反馈强化学习(RLHF)。所以这更多是算法层面的改进,而非架构层面的变革。
Nathan Lambert:我认为系统层面也发生了很大变化。如果你关注过Nvidia的发布会,他们会提到诸如“现在支持FP8,支持FP4”之类的技术。这些实验室正在研究如何将更多的算力投入到单个模型中,这让他们能够训练得更快,从而输入更多数据。通过这种方式,你可以更快地找到更优的配置。
没错,本质上“每GPU每秒处理的Token数”是你进行大规模训练时关注的核心指标。通过开启FP8训练,性能可以从10K提升到13K左右。这意味着模型中每个参数占用的内存更少,通信开销降低,从而实现更快的训练速度。所有这些系统层面的优化,支撑了数据和算法上更快速的实验迭代。
这就是一个不断循环的过程。当你观察它们的架构时,很难描述清楚,因为它们看起来几乎一样,但训练这些模型的代码库却截然不同。比如训练GPT-OSS 20B的实际用时比当年训练GPT-2要快得多。在混合专家模型(MoE)中,他们采用了FP4优化,从而获得了更高的吞吐量。但这并没有赋予模型新的“能力”,这仅仅关乎我们能在多大程度上使计算变得更粗粒度,而不导致模型性能下降。
目前Transformer架构的替代方案正在涌现,比如文本扩散模型(Text Diffusion Models)或Mamba这种状态空间模型(SSM)。但它们都存在权衡,事实是目前还没有任何东西能取代自回归Transformer作为SOTA(最先进)模型的地位。所以对于追求最先进性能而言,你仍然会选择它。
6、AI Scaling Laws:它们已经失效还是依然成立?
Lex Fridman:我想这里的大问题是,规模定律(Scaling Laws)在预训练、后训练、推理、上下文长度、数据以及合成数据方面是否依然稳固?
Nathan Lambert:我想先从规模定律的技术定义开始。它本质上是一种幂律关系,你可以将X轴视为算力和数据的结合,而Y轴是对下一个Token的留出预测准确率。人们发现这是一种非常可预测的关系,我认为这一技术趋势仍在继续。
现在的维度更加丰富了。OpenAI的o1引入了推理时扩展(Inference Time Scaling)。此外,你还可以通过扩展强化学习(RL)训练来获得性能提升。所以目前存在三个维度:
传统规模定律:即模型规模和数据集规模。
强化学习规模:即你可以进行多长时间的试错学习。
推理侧算力:即让模型针对特定问题生成更多的思维链Token。
我对这三者都持看好态度。过去一年在强化学习方面(特别是可验证奖励学习,即RLVR)以及推理侧扩展方面已经达成了很多容易实现的目标。这就是为什么现在的模型使用起来感觉如此不同:以前你会立即得到第一个Token,而现在它们在给出回答前会思考几秒钟甚至几小时,生成隐藏的思维链。这在模型能力变化方面简直是一种美妙的阶跃函数。
这种能力几乎完全源自于通过可验证奖励进行的强化学习训练。当你观察模型生成大量Token时的推理过程,你会发现它经常在尝试:调用一个工具,查看结果;再尝试另一个API,查看结果。模型很快就能学会执行这些操作,这为模型在代码库中使用CLI命令、处理Git、整理文件等提供了通用基础。
Lex Fridman:你提到你基本上看好每一种形式的Scaling。那么关于预训练,我们是否在暗示预训练规模化中那些“唾手可得的果实”已经被采摘殆尽了?预训练是否遇到了瓶颈,还是你依然看好它?
Nathan Lambert:预训练已经变得极其昂贵。要扩大预训练规模,意味着你要提供一个非常庞大的模型。目前业内共识是,像GPT-4这一代模型的大小大约在万亿参数量级。其实随着训练效率的提高,你会希望把模型做小,因为这样提供服务的成本会成比例下降。
相对于向数亿用户提供服务的成本来说,训练成本其实是非常低的。DeepSeek有一个著名的数据,按云市场价格计算,预训练费用约为500万美元。在我们刚刚发布的OLMo 3论文中详细说明了,包括工程调试、实验和集群闲置在内,训练一个模型大约花费了200万美元。很多人都能筹到几百万美元来训练模型,但为数百万用户提供服务的持续成本需要耗费价值数十亿美元的算力。
问题在于,如果扩展规模确实能带来更好的模型,它在财务上是否值得?我认为随着AI解决更多引人注目的任务,市场会推动这一点。比如Claude 3.5 Opus与之前的模型相比,彻底解决了我在七月份构建项目时遇到的问题。所以进步仍在继续。
Lex Fridman:所以你的直觉是,如果不考虑财务可行性,仅仅从定律的角度来看,如果扩展计算规模,模型会变得更聪明吗?
Nathan Lambert:是的。虽然这听起来像是对AI公司领导层的盲目信任,但这一规律已经支撑了13个数量级的算力增长,不太可能突然停止。只是最终我们可能无法测试更大的规模,因为规模越大带来的算力问题越多。
现在大家都在讨论2026年,届时超大规模云服务商将投入运营吉瓦(Gigawatt)级规模的Blackwell算力集群。这些电力和数据中心合同都是在ChatGPT发布前后签署的,建设周期需要两三年。实验室将拥有更多的算力用于训练,这是一个既定事实。我预计我们会看到订阅服务价格上涨,比如出现2000美元的订阅服务,这都源于更大一点的模型所提供的技术优势。
Lex Fridman:据报道xAI将在2026年初达到1吉瓦规模,并在年底达到2吉瓦。你认为他们会在规模定律的背景下如何利用这些资源?很大一部分是推理吗?还是训练?
Nathan Lambert:结果证明是“以上所有”。你在训练模型时做出的所有决策最终都会回到预训练。即使你打算扩展RL,你也需要决定能够实现这一点的架构。比如我们讨论的混合专家模型(MoE),其稀疏特性使得生成效率大大提高,这已成为后训练的重要组成部分。
但我认为大多数算力仍然正投入到预训练阶段,因为你仍然希望拥有尽可能最好的基础模型。几年后这可能会达到饱和,届时RL算力投入的比例将会变大。
Lex Fridman:是否有人不同意你的观点,认为预训练基本上已经过时了?认为现在的重点全在于推理扩展、后训练扩展、上下文扩展以及合成数据?
Nathan Lambert:人们普遍有这种感觉,但我认为实际情况并非如此。那种“预训练已死”的论调只是因为兴奋点转移到了别处。
以我们在11月发布的模型为例,如果不算预训练,仅仅做后训练就花了五天时间,这对于一个300亿参数的模型来说是很长的。到了12月,我们又让强化学习运行了三周半,模型变得显著更好。把这么长的时间分配给后训练是前所未有的。
但这并不意味着预训练被遗弃了。这是一种循环:你重新进行预训练,然后进行一个月的后训练,接着进行安全性测试发布给用户。总有可以改进的地方。当你使用10万块GPU进行大规模预训练时,你会遇到截然不同的故障,几乎肯定随时至少有一块GPU是宕机的。你需要让训练代码能够处理这种冗余,这完全是另一回事。
当我们转向强化学习时,它非常适合异构计算。简要介绍一下语言模型的强化学习:你需要准备两组GPU。一组是Actor(执行者),负责生成内容;另一组是Learner(学习者),负责实际的策略梯度更新(如PPO或GRPO算法)。你可以让分布在世界各地的许多不同Actor处理问题,将结果发回给Learner进行评分和学习。
至于推理侧扩展,问题变成了:你如何向1亿用户提供一个需要思考一小时的模型服务?这背后存在巨大的系统性挑战。
Lex Fridman:但我听下来,你对所有这些维度的扩展都持乐观态度。无论是推理、逻辑推理,还是预训练?
Sebastian Raschka:是的。在一个假设拥有无限计算资源的世界里,你会想要全面发力:预训练、中训、后训练、推理扩展全部拉满。更大的模型会赋予模型更多的知识。
但是正如Nathan所说,预训练变得太昂贵了。我们没有无限的算力,所以必须进行权衡。如果你把钱花在预训练上,这是一项固定成本,模型训练好后就永久拥有了这种能力。而对于推理侧扩展,你是为单次查询付费。
这就变成了一笔账:如果我的模型半年后就会被替换,也许花1亿美元去训练更大的模型并不值得,不如花200万美元做推理侧扩展来获得同等的性能提升。这就是ChatGPT现在的策略,他们拥有海量用户,所以选择了一条更具性价比的路线,可能使用了一个稍微小一点的GPT-5模型配合推理扩展。
但在某些特定任务(如奥数)中,你可能需要巅峰性能。总而言之,我认为预训练、中训、后训练以及推理侧扩展都是必须做的,关键在于找到合适的比例以获得最高的性价比。
原文标题 : Lex Fridman硬核访谈,5万字2026 AI全景报告
最新活动更多
- 1 对AI眼镜的投资,又要火了 | 人人能懂的产业报告
- 2 元宝换了个方式发红包,腾讯的AI社交实验还在继续
- 3 半年跑完短剧两年路!90%的AI漫剧公司,都在亏钱?
- 4 微信封元宝,是腾讯最清醒的一次决策
- 5 2026年AI的40个狂热风口丨独家访谈
- 6 算力的下一站为什么是太空?(附概念股)
- 7 硅谷顶级风投a16z最新报告:SaaS已死,AI应用的护城河来自三方面
- 8 智谱AI:“全球大模型第一股”登陆港股,如何避免沦为“AI外包商”是关键
- 9 算力新贵IPO与巨头反垄断:2026年AI投资的“冰火两重天” | 前瞻专题
- 10 木头姐2026 AI展望:龙虾机器人让智能体进化为数字劳动力,个人赚钱逻辑彻底变了


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论