Alog

摩擦、困难与思考：AI时代的认知自律

2026-04-04T00:00:00+00:00

瑞典正在把课本发回教室。2022年，前教育部长Lotta Edholm公开称瑞典学校的数字化是一场”没有科学依据的实验”¹。政府随后拨款数亿克朗购买纸质教材，禁止课堂使用手机，计划2026年在全国学校实施全天手机禁令。这个故事被广泛引用为”低效打败高效”的证据：纸笔虽然慢，但恰恰是这种慢让学生有时间消化信息。

这个叙事很诱人。它迎合了一个直觉上说得通的框架——Robert Bjork在1994年提出的”desirable difficulty”（合意困难）²：某些看似阻碍学习的困难，实际上能增强长期记忆和知识迁移。瑞典的案例似乎就是活生生的例证。再加上微软2025年的一项研究发现AI正在削弱知识工作者的批判性思维³，以及”不要让AI替你写作”这类呼声⁴，一条论证链浮出水面：科技消除了必要的摩擦（friction），人脑因此退化，我们需要重新拥抱低效。

但如果这条链条的每一环都比表面看起来更脆弱呢？

瑞典的故事远比叙事复杂

先看数据。瑞典PISA成绩从2000年到2012年持续下滑，2012至2018年有所回升，2022年再次下降——回到了2012年的低谷。但2022年的下降是全OECD范围内的现象，几乎所有参与国的成绩都在下滑，疫情是公认的主要因素之一⁵。瑞典在这轮下降中并不特殊。

更值得注意的是，马尔默大学教育学教授Anders Jakobsson在分析PISA 2022结果时指出：瑞典教育问题的核心是学校间的社会经济隔离不断加剧——弱势背景学生集中在同一批学校，优质教师分布不均。他说：”自2009年以来我一直在说同一件事，如果不解决日益严重的学校隔离问题，其他一切都无法奏效。”⁶

OECD对瑞典的教育诊断报告更详细地拆解了这些问题：1990年代的去中心化改革、择校制度引入的市场竞争、私立学校（friskolor）的分数膨胀、合格教师仅占70%的师资危机——这些结构性问题都远早于、也远深于”给了学生iPad”这一个变量⁵。

把瑞典的成绩下降归因于”数字化教育”，就像把一个多年饮食失衡、缺乏运动的人的体检异常归因于”最近换了一双新鞋”。鞋可能确实不合脚，但它不是主要问题。

瑞典政府回收课本的决定更像一次政治纠偏——纠正一个确实没有循证基础就全面推开的数字化政策——而不是一个受控实验的结论。这两件事的区别很重要。

“手写优于打字”没那么板上钉钉

Mueller和Oppenheimer在2014年发表了一篇影响深远的研究，标题就叫”笔比键盘更强”⁷。核心发现是：用笔记本电脑打字的学生在概念性问题上表现更差，因为打字速度快导致了逐字抄录（verbatim transcription），而手写的慢迫使学生做概括和重组——这种深层加工有利于学习。

这个结论广为传播。但2019年，Morehead、Dunlosky和Rawson使用相同的材料和方法做了直接复制实验，未能重现原始发现⁸。他们发现：手写组和打字组在概念性问题上没有显著差异；在延迟两天后的测试中，差异进一步缩小；当允许复习笔记时，两种方法几乎完全等效。他们的结论很直白：”基于现有证据，断定哪种方法更优还为时过早。”

更有意思的是，即使在Mueller和Oppenheimer的原始研究中，当他们明确告知打字组”不要逐字记录”时，这个干预完全无效——打字组的逐字率没有任何下降⁷。这暗示问题可能不在介质本身，而在使用策略。手写之所以（可能）有优势，不是因为”笔”这个物理工具有什么魔力，而是因为手写的物理限制恰好迫使了一种特定的认知行为。如果你能在打字时主动做同样的加工，效果未必不同。

Desirable difficulty的限定条件

Bjork的desirable difficulty框架经常被简化引用，但他本人的表述比流行版本谨慎得多。他在多篇文献中反复强调一个关键限定：

“The word desirable is important. Many difficulties are undesirable during instruction and forever after. If the learner does not have the background knowledge or skills to respond to them successfully, they become undesirable difficulties.”²

困难只在学习者有能力回应时才是”合意”的。让一个从未游过泳的人跳进深水区不是desirable difficulty，那只是difficulty。这个限定条件把很多草率的推广都挡在了门外。

Bjork具体推荐的四种策略是：间隔练习（spacing）、交错练习（interleaving）、变换学习情境和检索练习（用测试代替重读）。这些都有扎实的实验证据，但它们的共同机制不是”让事情变慢”——而是迫使更深层的编码和提取加工⁹。

换句话说，desirable difficulty的核心不是difficulty本身，而是difficulty所触发的cognitive engagement。这两件事经常重合，但并不等价。

微软研究揭示的真正变量

Lee等人2025年在CHI发表的研究或许是目前最有分量的AI与认知关系的实证工作³。他们调查了319名知识工作者在936个真实AI使用场景中的批判性思维表现，发现了一个信心-能力交互效应：

对AI的信心越高 → 批判性思维越少
对自身能力的信心越高 → 批判性思维越多

这不是在说”AI让人变笨”。它在说：AI改变了人脑的成本-收益计算。当你面前有一个看起来不错的答案时，继续思考的边际收益（在你看来）下降了。对于本就信任AI胜过信任自己的人，这种效应被放大；对于对自身专业有信心的人，AI反而可能激发更严格的审视——因为他们有能力判断AI的输出，也有动力这样做。

研究还发现，AI把知识工作的认知模式从”执行任务”（task execution）转变为”监督任务”（task stewardship）——从自己做变成审查AI做的结果³。这种转变本身不是问题。问题在于，如果你在一个领域还没有足够的积累来做有效的监督，那你实际上是在监督你不理解的东西。

那么摩擦到底有什么用？

综合以上证据，我的判断是：

摩擦本身没有价值。有价值的是摩擦所迫使的认知参与。

手写笔记之所以（可能）优于打字，不是因为”慢”本身好，而是因为慢迫使你做概括、做取舍、做重新组织——这些是深层加工。如果你能在使用AI的同时保持同样的认知参与度，快不是问题。如果你在用纸笔但只是机械抄写，慢也救不了你。

认知卸载（cognitive offloading）的研究支持这个区分。Grinschgl等人2021年的实验发现，使用外部工具确实削弱了后续记忆——但只在参与者没有明确的学习目标时如此。当参与者知道稍后需要回忆这些信息时，即使被强制使用外部工具，他们”几乎完全抵消了卸载对记忆的负面影响”¹⁰。

关键变量不是”有没有使用工具”，而是”使用工具时有没有保持主动加工的意图”。

这引出一个不太舒服的推论：摩擦的必要性和你在该领域的积累成反比。

对于还在构建基础认知框架的人——小学生、新入门的学习者——外在的、结构性的摩擦几乎是必要的。你不能指望一个8岁的孩子在iPad面前”主动选择深层思考”。瑞典把课本发回小学教室，在这个意义上是对的。

但对于已经在某领域有深厚积累的人，强制保留摩擦就像要求一个经验丰富的木匠放弃电锯改用手锯来”保持对木头的感觉”。不是完全没道理，但收益递减。微软研究的数据正好支持这一点：高自我信心者使用AI后反而投入更多批判性审视。

真正的问题：从外在约束到自律行为

以前你写一篇文章，摩擦是默认的——你必须坐在那里一个字一个字敲出来，过程天然迫使你思考。现在你可以让AI生成，思考变成了可选项。

这就像食物稀缺的年代，你不需要”意志力”来控制饮食。现在超加工食品无处不在，节制变成了一个纯粹的自律问题。问题不是食物变丰富了，问题是人类的自律能力没有同步升级。

AI的真正危险不是它消除了摩擦，而是它把”是否进行深层认知参与”从一个你不得不面对的外在约束，变成了一个你必须主动选择的自律行为。Weizenbaum在1976年就以另一种方式说过类似的话：”权力若不是选择的权力，便什么也不是。工具理性可以做出决定，但’决定’和’选择’之间有着天壤之别。”¹¹

Lee等人的研究也印证了这一点：AI使用中批判性思维的三大障碍分别是——意识不足（不知道自己在偷懒）、动力不足（时间压力下觉得”够好就行”）、能力不足（在不熟悉的领域无法有效评估AI输出）³。这三个障碍的共同特征是，它们在没有外在摩擦时会被放大。

不是回到纸笔，而是重新设计参与

如果我们接受”认知参与才是关键”这个前提，那正确的应对方案就不是”把AI拿走、回到纸笔”——那是在逃避问题。真正的挑战是：在工具已经存在的前提下，如何设计工作流和习惯，使认知参与不再依赖外在摩擦的强制。

HCI领域近两年讨论的”friction-in-design”给了一些方向。它不是把整个流程变慢，而是在关键决策点有策略地插入反思节点。Lee等人的研究本身就提到了一些设计策略：将AI的解释以问题而非陈述的形式呈现、要求用户等待后才能看到AI输出、设置注意力检查节点——这些”认知强制函数”（cognitive forcing functions）在实验中显著降低了对AI的过度依赖³。

在个人实践层面，这可能意味着：

AI生成了一份草稿，你不是直接发出去，而是必须自己写一段”这个方案的核心逻辑是什么”的摘要
用AI做了信息检索，你不是直接引用结论，而是必须重新组织它和你已有知识的关系
在学习新领域时，刻意保留手写笔记、自己推导的环节
在已经熟悉的领域，放心使用AI处理机械性工作

这不是一个关于”科技好还是不好”的争论。它是一个关于在什么阶段、对什么人、在什么任务上保持什么程度的认知参与的工程问题。答案不是一刀切的。

瑞典把课本发回了教室，但真正拯救瑞典教育的不会是课本。Jakobsson说得很清楚：解决学校隔离才是根本⁶。同样，拯救我们认知能力的也不会是对AI的回避，而是在一个默认无摩擦的世界里，仍然有意识地选择为自己制造认知挑战——不是因为低效有什么美德，而是因为思考这件事本身就不可能被外包。

Weizenbaum在半个世纪前写道，计算机的引入”仅仅加固和放大了那些先前就存在的压力”¹¹。AI也是一样。它没有创造懒惰，它只是让懒惰的代价变得更隐蔽、更延迟、更难察觉。在以前，不思考的后果是写不出东西。现在，不思考的后果是你写出了一堆看起来不错但不属于你的东西，而你甚至不知道自己损失了什么。

参考文献

Knutsson, L. (2025). Sweden Went All in on Screens in Childhood. Now It’s Pulling the Plug. After Babel. 链接 ↩
Bjork, E. L. & Bjork, R. A. (2011). Making Things Hard on Yourself, But in a Good Way: Creating Desirable Difficulties to Enhance Learning. 收录于Psychology and the Real World. 原始概念出自 Bjork, R. A. (1994). 链接 ↩ ↩²
Lee, H. P., Sarkar, A., Tankelevitch, L., Drosos, I., Rintel, S., Banks, R. & Wilson, N. (2025). The Impact of Generative AI on Critical Thinking. CHI ‘25. 链接 ↩ ↩² ↩³ ↩⁴ ↩⁵
Woods, A. (2026). Don’t Let AI Write For You. 链接 ↩
OECD (2023). PISA 2022 Results — Sweden Country Note. 链接 ↩ ↩²
Malmqvist, M. (2023). Lack of vision for Swedish schools, an academic reflects on PISA results. Malmö University. 链接 ↩ ↩²
Mueller, P. A. & Oppenheimer, D. M. (2014). The Pen Is Mightier Than the Keyboard: Advantages of Longhand Over Laptop Note Taking. Psychological Science, 25(6), 1159-1168. ↩ ↩²
Morehead, K., Dunlosky, J. & Rawson, K. A. (2019). How Much Mightier Is the Pen than the Keyboard for Note-Taking? A Replication and Extension of Mueller and Oppenheimer (2014). Educational Psychology Review, 31(3), 753-780. 链接 ↩
Bjork, R. A. & Bjork, E. L. (2020). Desirable Difficulties in Theory and Practice. 链接 ↩
Grinschgl, S., Papenmeier, F. & Meyerhoff, H. S. (2021). Consequences of cognitive offloading: Boosting performance but diminishing memory. Quarterly Journal of Experimental Psychology, 74(10), 1758-1773. 链接 ↩
Weizenbaum, J. (1976). Computer Power and Human Reason: From Judgment to Calculation. W.H. Freeman. ↩ ↩²

空荡荡的办公时间：计算机科学正在失去什么

2026-03-29T00:00:00+00:00

一位编程语言研究者最近写了一篇文章¹，标题是”Humanity in CS & PL, now more than ever”。文章没有数据，没有论证框架，只是一个在计算机科学领域待了十年的人，回忆那些让她留下来的理由——然后发现这些理由正在被这个领域亲手拆毁。

其中最刺痛我的一个画面：她坐在空荡荡的办公室里，等学生来答疑，没有人来。不是因为学生没有问题，而是因为他们被教会了一件事——有问题是一种缺陷，而缺陷现在有了更便捷的修复方式：问机器。

这个画面并不孤立。它是一个正在加速的趋势的缩影，而且已经开始有系统性的研究证据支撑。

人是目的，还是瓶颈

她在文章里坦言，自己对计算机科学本身并没有多大热情。驱使她留下来的始终是人：导师Sam在每一步给她鼓励，Dan Friedman在讲课时永远会穿插”这个理论背后的那个人”的故事，Ron Garcia会在看到学生读论文时兴奋地说起作者”是个很好的人”。学术会议对她而言不是论文报告会，而是和朋友吃饭、拍照、溜进空教室一起学范畴论的场合。

这些经历听起来私人、零碎，但它们指向一个被技术叙事长期忽略的事实：计算机科学对很多从业者来说，从来不只是关于计算机的。代码、论文、系统只是载体，真正让人投入十年生命的东西，是载体背后的人际关系——师生之间的、同事之间的、同代人和上一代人之间的那些看不见的线。

但整个行业对”人”的态度正在发生转变。人从”目的”变成了”瓶颈”。产品经理说用户行为是”messy”的，需要被预测和引导。管理层说人力成本太高，需要被自动化削减。技术布道师说人类推理是”slow and error-prone”的，应该让模型来做。

这些说法单独看都不算错。但汇聚在一起，它们构成了一种系统性的态度：人是需要被解决的问题。

Emily Bender在她的论文”Resisting Dehumanization in the Age of ‘AI’“中，把这种态度追溯到一个更深层的根源：计算隐喻（computational metaphor）。这个隐喻是双向的——科学家把大脑比作计算机来推进神经科学研究，但技术布道师们反过来把计算机比作大脑来做PR。Baria和Cross指出，这个隐喻”给予了人类心智过少的复杂性，却给予了计算机过多的智慧”²。更严重的是，它建立了一种以”理性”为顶端的人类价值等级——越接近机器的冷静计算，就越”聪明”；越带有情感、直觉、关系性的认知，就越”低级”。

按照这个逻辑，AI作为”理性思维的极致体现”，反而在其”伪人类智能”的面目下，”悖论式地成为了一种更值得信赖的智能形式”²。人不是被取代了，而是被重新定义为一种低配版本的机器。

效率叙事的盲区

生成式AI最强大的叙事武器是效率。”十倍生产力”、”一个人顶一个团队”、”几秒钟完成几小时的工作”——这些话术已经成为行业的通行证。效率是无可辩驳的：你很难站出来说”我反对更高效”。

但效率叙事有一个巨大的盲区：它把所有人类活动都视为产出函数，用输入-输出的框架来衡量。写代码的产出是代码。写论文的产出是论文。教学的产出是学生的分数。既然产出可以用更低的成本获得，那过程中那些”多余”的部分——思考的挣扎、求助的尴尬、讨论的摩擦、合作的笨拙——自然应该被优化掉。

Weizenbaum早在1976年就在《Computer Power and Human Reason》中点明了这种逻辑的荒谬：”如果我们试图用计算机技术和分析来解决真正的人类问题，我们就把自己限制在了现实的一个高度筛选的领域内——即那些可以用量化术语表达、能够以严格逻辑方式操纵的部分。”³他更进一步指出，”计算机的引入……仅仅加固和放大了那些先前就存在的压力，那些驱使人类走向越来越理性主义的社会观、越来越机械化的自我形象的压力。”对他来说，真正的危险不是计算机做不到某些事，而是它让我们放弃了”用真正属于人类的方式来面对人类困境”的尝试。

问题在于，那些”多余”的部分恰恰是人之所以为人的部分。

一个学生花三个小时调试一个bug，最终发现是自己对指针的理解有误。这三个小时的”产出”是零——bug可以让AI三秒修好。但这三个小时里发生的事情——困惑、假设、推翻、重新理解——构成了一次真正的学习。更重要的是，如果她在调试过程中去了办公时间，和助教讨论了自己的困惑，那么这次交互的价值远不止于修好一个bug。她学到了如何向另一个人描述自己不理解的东西，她体验了被认真倾听和帮助的感觉，她和一个具体的人建立了一条细微的连接。

这些东西不在任何效率指标里。但它们是教育的真正内容。

教室里正在发生什么

这不只是一种直觉上的担忧——研究数据正在验证它。

2025年发表的一项系统性文献综述，覆盖了计算机教育中生成式AI的危害研究⁴。它识别出六类伤害，其中最普遍的是认知伤害（32.4%的论文涉及）：学生在没有深入理解的情况下复制AI生成的代码，使学习变得”太容易”，独立解题能力下降，代码风格同质化。在ChatGPT推出后，研究者甚至在统计意义上观察到了学生代码中”非典型风格”（即AI风格）的显著上升。

紧随其后的是元认知伤害：学生难以区分自己”真正理解了”还是仅仅在”鹦鹉学舌”地复述AI的输出。低水平学生在使用AI时展现出更多困难，花更长时间，却接受了更多错误建议——他们被误导了，但自己不知道。

更值得关注的是该综述提出的六个”重大挑战”之一：学习社区的保护（Preserving Learning Communities）。研究者观察到，AI使用增加后，同伴互动、协作和归属感都在减弱。一些学生明确表示，他们使用AI是为了回避求助时的社交情感障碍——正是Koronkevich描述的那种场景：与其去办公时间面对一个活人承认自己不懂，不如安静地问一个不会评判你的机器。

另一项面向290名大学生的调查⁵揭示了同样的担忧分布：72%的受访者对”因依赖技术而增加的压力”表示同意或强烈同意；55%认为AI正在”削弱传统教育方法”；45%担忧”人际沟通技能的弱化”。在一项面对面访谈中，教师们注意到学生交上来的作业”语法更好了，文字更干净了”，但同时也出现了”没有个性的作品”、幻觉事实和缺乏原创思考⁶。

Sherry Turkle在《Alone Together》中预见性地描述了这种趋势的心理学根源：技术之所以有诱惑力，恰恰是因为它回应了我们的脆弱性。”我们孤独，但害怕亲密。于是我们设计出给我们以陪伴幻觉的技术，却不附带友谊的要求。”⁷这句话写于2011年，那时候还没有ChatGPT。但它几乎完美地预言了今天课堂里正在发生的事：学生不是不需要帮助，而是在用AI绕开”向另一个人承认自己不懂”这个令人不安的时刻。

“非关系性”的知识

Bender在她的分析中引入了一个来自Abeba Birhane的关键概念：非关系性（irrelationality）²。人类的知识是关系性的——我们在与他人的互动中认识世界，自我在关系中涌现，理解在对话中生长。但AI所编码的”知识”是非关系性的：它被抽象出关系网络，以一种”上帝视角”呈现，仿佛存在脱离了所有人类语境的客观真理。

这正是Koronkevich那篇文章真正触及的问题。她最爱读论文的致谢部分——那是论文里唯一允许”不效率”的空间。致谢没有信息量，不推进论证，不报告数据。它唯一做的事情是承认：这篇论文不是我一个人写的，它是一个关系网络的产物。她在Amal Ahmed的博士论文致谢里，意外发现了她几年前在佛罗里达随机联系过的一位教授的名字——”我们之间有这些看不见的线，跨越海洋和大陆把我们连在一起。”

这种关系性的知识，这些跨越时空的”隐形丝线”，恰恰是AI无法编码的东西。不是因为技术不够强，而是因为它从根本上不处于任何关系之中。它可以生成一篇完美的论文，但那篇论文背后不存在一个关系网络。它可以给你一个正确答案，但那个答案不是从”和你一起想了很久”的过程中生长出来的。

而我们正在推崇的叙事是：独立开发者用AI一个周末搞出了一个产品；10x engineer一个人顶十个人。这些故事的潜台词是：依赖他人是弱点，协作是摩擦，最理想的状态是一个人加一个AI，不需要任何人。

价值观的摸底测试

文章最后有一句话很沉：”I guess what makes me sad is realizing that we were different after all.”——让她难过的是意识到，原来我们真的不一样。她以为同行和她一样在乎人，但现在看来，整个领域真正在乎的是自动化、产出、效率。人际连接只是副产品，不是目的。

这种”原来我们不一样”的觉悟，我猜很多人在过去两年都经历过。你以为你的同事和你一样享受一起解决问题的过程，结果他们更在意的是能不能用AI跳过这个过程。你以为你的学生和你一样珍视课堂讨论，结果他们更在意的是能不能用AI直接拿到答案。你以为整个社区和你一样看重手艺，结果大家更在意的是谁先用AI实现了同样的效果。

这不完全是一个技术问题。它更像是一次价值观的摸底——原来在”做事”和”做人”之间，很多人选的是前者，只是以前没有工具让这个选择变得如此清晰。

但也不必过于绝望。前述教育研究中有一个反复出现的发现：高绩效学生对AI更持怀疑态度⁶。他们不太频繁使用AI，也更不认同”AI让我变成了更好的学生”这个说法。这或许暗示，那些已经体验过深度学习之乐的人，更能辨认出什么是真正有价值的过程，什么是捷径。

Weizenbaum在半个世纪前写道：”权力若不是选择的权力，便什么也不是。工具理性可以做出决定，但’决定’和’选择’之间有着天壤之别。”³

我们还能选择。选择去办公时间坐下来，面对一个活生生的人说”我有一个问题”。选择花三个小时搞懂一件事，而不是三秒钟拿到答案。选择在致谢里写下那些看不见的线。这些选择在效率指标面前看起来愚蠢。但它们是唯一不可外包的东西。

参考文献

Koronkevich, E. (2026). Humanity in CS & PL, now more than ever. 链接 ↩
Bender, E. M. (2024). Resisting Dehumanization in the Age of “AI”. Current Directions in Psychological Science, 33(2), 114-120. 链接 ↩ ↩² ↩³
Weizenbaum, J. (1976). Computer Power and Human Reason: From Judgment to Calculation. W.H. Freeman. ↩ ↩²
Denny, P. et al. (2025). Beyond the Benefits: A Systematic Review of the Harms and Consequences of Generative AI in Computing Education. ACM Computing Surveys. ↩
Al-Kumaim, N. H. et al. (2025). Exploring Generative AI Usage Patterns in Universities. International Journal of Technology in Education (IJTE), 8(2), 330-354. ↩
Iacis Research (2025). Generative AI in Higher Education: Student and Faculty Perspectives on Academic Impact. Issues in Information Systems, 26(2), 373-386. ↩ ↩²
Turkle, S. (2011). Alone Together: Why We Expect More from Technology and Less from Each Other. Basic Books. ↩

从检索到生成：信息消费的第三次范式转移

2026-03-09T00:00:00+00:00

人类获取信息的方式，在几十年里发生了两次剧变。现在可能正在经历第三次，而且这次动摇的不只是获取方式，而是”信息”这个概念本身。

第一次：主动检索

图书馆、百科全书、后来的搜索引擎——这一阶段的核心逻辑是pull：用户带着问题主动出发，从一个已经存在的语料库里寻找答案。信息是客观预存的，用户的任务是找到它。

搜索引擎把这个范式推向了极致。Google本质上是一个巨型索引，PageRank算法根据链接权威性给网页排序，把”最可能有用的”内容放在最前面。用户输入关键词，扫描结果列表，点进去读原文，自己判断有没有用——整个过程的认知负担在用户身上。

这种范式培养了一种特定的认知习惯：信息素养。知道怎么构造搜索词，知道辨别来源可信度，知道从多个页面综合判断。

第二次：被动推荐

微博、微信公众号、TikTok、YouTube——这一阶段的核心逻辑是push：算法带着信息主动找来，用户不需要提问，只需要滑动。

推荐算法的出现是一次隐性的权力转移。表面上是”个性化”，实质是平台代替用户决定他应该看什么。用户得到了更流畅的信息体验，但付出的代价是把筛选权交了出去。

这一阶段的副产品是信息茧房（filter bubble）¹和注意力经济。算法的优化目标不是”有用”，而是”停留时长”，两者并不总是一致的。

第三次：生成创造

ChatGPT、Claude、Gemini——这一阶段的核心逻辑是generate：用户描述自己想要的内容，AI实时合成一个此前可能从未以这种形式存在过的回答。

这和前两次有一个根本性的不同。检索和推荐的共同前提是：信息预先存在，系统的任务是找到它或送达它。但生成式AI不是在操作一个已有的语料库——它是在响应你的瞬间，用统计语言模式重新构建一个回答。

这意味着什么？

信息从”被发现的客观事实”变成了”被构建的语用产物”。 你得到的不是一篇文章，不是一个网页，而是一个专门为你的问题、在这个时刻生成的文本。它之前不存在，它是为你制造的。

这次转移有什么不同

前两次范式转移，认识论的地基没有动摇。无论是检索还是推荐，信息背后都有一个人写过、一件事发生过、一个来源可以追溯。可信度可以被验证，错误可以被纠正，来源可以被引用。

生成式AI引入了一个新的风险类型：幻觉（hallucination）。一个大模型可以非常流畅、非常自信地给你一个从未存在过的引用，一个错误的数据，一段虚构的历史。而它的”来源”是训练数据里的统计模式，不是任何一个具体的事实。

2026年初，有研究者大规模比较了Google和GPT-4/Claude等AI的信息来源²，发现两个生态系统在域名分布、来源新鲜度、信息类型上都有显著差异：AI倾向于引用”已建立的”知识，而不是最新的内容；更偏向品牌官网这类”owned media”，而非经过编辑筛选的媒体报道。这种偏向是系统性的，但用户几乎感知不到。

与此同时，Capgemini的2025年消费者报告³显示，已有58%的消费者开始用生成式AI替代传统搜索引擎来做产品推荐和信息查询。这个迁移速度远超预期。

另有研究从用户迁移动机的角度切入，基于push-pull-mooring模型⁴分析了人们从搜索引擎转向生成式AI的意愿——发现驱动迁移的主要因素不只是”AI更好用”，更关键的是对搜索引擎现有体验的不满积累。

权力结构的再次转移

每一次范式转移，背后都是一次权力结构的重组：

检索时代：用户掌控查询，权力在用户手里
推荐时代：平台掌控分发，权力转移到平台
生成时代：模型掌控合成，权力集中于少数基座模型的训练者

表面上，生成式AI把”掌控感”还给了用户——我来提问，我来决定我要什么，我可以追问、修改、引导。但这种掌控感是有边界的：所有回答都在训练数据、价值观对齐策略、内容过滤机制的框架之内生成。同一个问题在不同AI上会得到不同的答案，而多数用户不知道这背后的差异从哪里来。

这在培养一种什么习惯

麦克卢汉说，媒介即信息⁵。每种获取信息的媒介都在塑造使用者的认知方式本身：

印刷术培养了线性、深度的阅读能力；搜索引擎培养了快速筛选、关键词提炼的信息素养；推荐算法培养了被动消费、短时注意力；生成式AI在培养什么？

乐观的版本是：对话式的知识构建——通过追问、澄清、反驳，主动参与信息的生成过程，而不是被动接收。这比任何一种之前的范式都更接近苏格拉底式的学习。

悲观的版本是：认知外包的加速——当获得答案变得如此便捷，人们会越来越少地培养自己构建答案的能力。不只是”不用记忆”，而是”不用思考”。

这两种结果都有可能，取决于我们如何使用这个工具。

目前我倾向于认为：生成式AI是一次真正的范式转移，而不只是搜索引擎的升级版。但它带来的认识论风险是真实的，值得认真对待——不是要拒绝它，而是要在使用它的同时，保持对”我是怎么知道这件事的”这个问题的警觉。

这种警觉，或许正是信息消费的第四个阶段需要培养的能力。

“filter bubble”一词由媒体理论家Eli Pariser在2011年提出，参见 The Filter Bubble: What the Internet Is Hiding from You（Penguin Press, 2011）。 ↩
Chen, M. et al. (2026). Navigating the Shift: A Comparative Analysis of Web Search and Generative AI Response Generation. arXiv:2601.16858. 链接 ↩
Capgemini Research Institute (2025). Consumer Trends Report. 报告显示71%的消费者希望将生成式AI整合进购物体验，58%已将GenAI替代传统搜索引擎作为产品推荐的首选。链接 ↩
Xu, et al. (2024). Understanding user switch of information seeking: From search engines to generative AI. Journal of Information Science. 基于push-pull-mooring（PPM）模型分析用户从搜索引擎迁移到生成式AI的意愿。链接 ↩
Marshall McLuhan (1964). Understanding Media: The Extensions of Man. McGraw-Hill. “The medium is the message”是该书核心论点，意指媒介本身（而非其内容）才是影响社会和个人的关键力量。 ↩

死亡的形状：你只能看见那一刻

2026-03-09T00:00:00+00:00

1807年，一艘消失了五年的商船漂回了英国港口，帆破人亡，没有一个活口。你是东印度公司派来的保险理算员，手持一枚名为Memento Mortem的怀表，可以重访船上每一具遗骨死亡那一刻的定格画面。任务很简单：查明60个人的姓名与死因。

这就是Lucas Pope在2018年发布的独立游戏《Return of the Obra Dinn》（下文简称Obra Dinn）。它拿下了当年TGA最佳美术指导，次年GDC独立游戏节大奖、BAFTA最佳游戏设计与艺术成就奖、以及游戏开发者选择奖最佳叙事奖——几乎横扫了独立游戏能拿到的所有制高点。

通关之后，我反复在想：这个游戏到底对在哪里？资料调查下来，我认为答案分布在三个维度。

一、视觉构筑：1-bit美学的工程学

Obra Dinn的视觉风格几乎不需要描述——黑白两色，粗粒感的抖动渲染（dithering），轮廓清晰的低多边形3D场景。但这个风格不是为了”复古”而复古，它是一套经过反复工程计算的表达系统。

Pope在TIGSource开发日志中详细记录了这一过程。游戏的视觉灵感来自他童年玩过的早期Macintosh游戏——512×342分辨率，9英寸屏幕，纯黑白显示。他说：

“I specifically remember never thinking ‘I want more colors here.’ To me it always looked beautiful in one bit.”

但把1-bit风格用于现代3D游戏，最大的工程难题是抖动（dithering）的动态稳定性。传统的抖动算法在动态画面中会产生像素闪烁，让玩家眼睛无法承受。Pope花了四年时间反复实验，他的解法是：不把抖动当成”模拟灰度的手段”，而是让它成为依附在3D几何体表面的稳定纹理——像木刻版画一样跟随物体移动，而不是在屏幕像素上随机跳动。

定格在死亡瞬间的船舱——黑白两色构建出比彩色更具压迫感的空间

另一个关键决策是轮廓线规则：明亮背景上的物体用黑色描边，黑暗背景上的物体用白色描边——始终保持反色，确保几何形状可辨认。这个看起来简单的规则，让Obra Dinn的场景在任何光线条件下都保持空间清晰，同时彻底回避了恐怖游戏式的”藏东西”，Pope说这是刻意的：他不想让玩家迷失，他想让玩家观察。

批评游戏研究学者（CVGS）的视觉分析指出，这套美学与19世纪盛行的蚀刻版画和木刻版画在视觉语法上高度吻合——那正是Obra Dinn故事发生的年代。形式即内容。

每一次目击死亡，都是闯入一张凝固的蚀刻版画

二、叙事结构：记忆的考古学

Obra Dinn的叙事是非线性的，但它的非线性不是《低俗小说》式的炫技，而是有其内在逻辑——你只能看见死亡的那一刻，不能看见死亡之前或之后发生的一切。

这个限制塑造了全部的叙事张力。

游戏分十个章节，每章覆盖Obra Dinn航行中的一段时期。玩家在2007年的”现在”探索空船，找到遗骨，触发怀表，进入死亡定格。但章节本身是有顺序的，故事却是碎片化的：同一个人可能出现在多个章节里，早期的章节可能交代的是晚期事件，而解开一个死因往往需要回到更早发生的场景中去寻找线索。

Stories in Play的学术分析将这种结构称为”空间化的时间”（spatialized time）：同一艘船，在”现在”是空壳，在”记忆”里是满载的活人——两个时态同时叠放在同一个物理空间上，让玩家在每次进出记忆时都感受到一种近乎考古学的落差感。

叙事密度也是这个游戏的惊人之处。Gamedeveloper的专访中，Pope提到游戏的核心设计动机之一就是”fascinating design problems”——他给自己设了很多限制，包括：所有信息都必须通过场景的视觉和听觉自然呈现，没有任何人会为了给玩家线索而说话。每一句台词都是那个场景中那个人物在那个情境下真实会说的话，却同时包含着能够帮助玩家推理的信息量。

这种密度在通关之后还会带来惊喜。Gold-Plated Games的评测写道：

“After I completed every fate, I went back to look at guides to help me sort out the story and discovered I had missed fully half the clues in the game with my educated guessing.”

信息层叠得如此深，以至于不少玩家靠猜测完成了推理，却不知道自己错过了多少指向同一答案的线索。

三、推理设计：公平的折磨

Obra Dinn最难的部分不是找线索，而是相信自己找到了足够的线索。

游戏的推理系统有一个巧妙的”三连确认”（confirmation in sets of threes）机制：当你在日志中填入三个正确的判断（姓名+死因+责任人），系统才会确认并锁定这三条，给出”Well Done”的反馈。单独一条正确的填写得不到任何反馈。这个设计的用意在于：让玩家通过交叉验证积累信心，而不是逐条暴力猜测。

Intermittent Mechanism的分析文章细致拆解了这个系统如何在实践中产生”有根据的猜测”循环——当玩家对两个身份有把握时，往往会开始用第三个身份来”测试”系统，这在某种程度上偏离了Pope希望玩家通过观察得出答案的设计初衷。

但这个张力本身也揭示了游戏推理设计最难的挑战：如何在信息量巨大的谜题中，保持推理而非猜测的尊严？

Obra Dinn的解法是多层次的：

种族、口音、职位：同职级的船员往往聚在一起；语言差异提供了归属线索
空间关系：死亡场景中的站位往往暗示关系，而关系可以交叉验证
跨场景积累：一个在早期场景出现过的面孔，到后期场景往往能凭已知信息锁定
语音与对话的细节：被叫到的名字、提到的称呼，都是线索

Kellie Lu的分析文章精准捕捉了这个游戏的核心体验：”unlike many detective games that give the player god-like powers or modes to highlight clues, the player must investigate environments without hand-holding”——它让玩家成为真正的侦探，而不是在模拟侦探的过场动画里按提示键。

日志本——既是游戏的UI，也是叙事的容器

结尾

Obra Dinn让我印象最深的一刻，不是解出某个特别难的死因，而是在通关后意识到：那艘船上60个人的命运，都有一个完整的、自洽的因果链；游戏没有为了谜题的难度而发明不合理的死法，没有为了叙事的戏剧性而牺牲推理的严密——它在两者之间找到了一个极其罕见的均衡点。

Lucas Pope把这个游戏描述为”an insurance adventure with minimal colour”。克制到近乎冷漠——但正是这份克制，让那些偶尔出现的情绪力量有了真正的重量。

参考资料

Lucas Pope (2018). For Obra Dinn, it was a bunch of appealing design problems. Game Developer
Lucas Pope (2014–2018). Return of the Obra Dinn - TIGSource Development Log. TIGSource Forums
Jason Boyd (2020). Return of the Obra Dinn - Stories in Play. storiesinplay.com
CVGS (2022). Return of the Obra Dinn: A Visual Analysis. criticalvideogamestudies.com
Gold-Plated Games (2019). Review: Return of the Obra Dinn. goldplatedgames.com
Elle Thompson (2024). Confirmation in The Return of Obra Dinn. intermittentmechanism.blog
Kellie Lu. Analysis of Return of the Obra Dinn. kellielu.squarespace.com

JRPG长青的秘密：时间、情感与一种独特的叙事哲学

2026-03-06T00:00:00+00:00

这是一个老问题，但值得认真回答：日式RPG（JRPG）作为一种诞生于1980年代的游戏类型，为什么到今天还没有死？

批评的声音从未消失——节奏慢、战斗无聊、剧情中二、主角千篇一律顶着乱糟糟的头发拿着一把大剑。这些批评并非全无道理。但与此同时，每隔几年就会有一款JRPG跻身年度最佳：《女神异闻录5》《异度之刃2》《最终幻想XVI》……玩家一口气打一百小时还意犹未尽。这个类型的生命力，显然不能只用”情怀”来解释。

起点：一次刻意的降维

1986年，《勇者斗恶龙》在日本Famicom上发售。设计者堀井雄二当时的出发点，是让RPG这个原本属于硬核玩家的类型变得”对所有人开放”——他的原话是：”我想创造一个容易理解、又能让人感同身受的系统，然后在这个框架里讲故事。”

这个”降维”的决定塑造了整个JRPG的基因：游戏系统是故事的容器，而不是目的本身。与同时期西方RPG（《创世纪》《巫术》）追求模拟真实世界的复杂性不同，JRPG从一开始就把叙事放在首位，把系统复杂度控制在”刚好能支撑情感投入”的程度。

这个基因一直延续到今天。《勇者斗恶龙XI》的战斗系统并不革命，但它花大量笔墨写每一个同伴的人生故事；《母亲2》的战斗系统简单到近乎儿戏，但它用儿童冒险的外壳包裹了对消费主义和流行文化最辛辣的批判。

《勇者斗恶龙XI：寻觅逝去的时光》——系列基因最完整的一部集大成之作

核心魅力之一：时间的重量

JRPG最常被批评的”节奏慢”，从另一个角度看，是它最深刻的设计哲学。

JRPG要求你在一个世界里待足够长的时间——长到村庄有了记忆，角色有了质感，世界地图的每一个角落都留有痕迹。《勇者斗恶龙V》的催泪不是一个三分钟的cutscene完成的，而是你陪着主角从童年到中年、从儿子到父亲走过的几十小时的积累；《火焰纹章：风花雪月》里学生们的牺牲之所以令人心碎，是因为你曾经一笔一笔地规划他们的职业路线，带他们去茶会，看过他们写给彼此的支援信。

这种”时间的重量”是JRPG独有的情感机制。电影两小时，小说或许十几小时，而一部JRPG往往需要五十到一百小时——这个体量本身就是叙事工具。没有其他媒介能以同样的方式积累情感。

核心魅力之二：你在”养”一个角色，而不是”扮演”一个角色

西方RPG的核心体验是自由意志——我是谁，我做什么选择，我塑造世界。JRPG的核心体验是成长共情——我看着这个角色从弱小变得强大，从迷茫找到方向，我为他投入了时间和情感。

这是两种截然不同的自我投射方式。前者是”我进入游戏世界”，后者是”游戏角色进入我的生活”。

JRPG里的角色培养机制——职业系统、支援对话、装备搭配——不只是数值游戏，它是情感投入的仪式。你给某个角色选了独特的职业路线，配了你认为最适合他性格的骑士团，这个角色就变成了”你的”角色，而不只是预设好的NPC。《火焰纹章：风花雪月》把这个机制做到了极致：同一个角色，不同玩家可能培养出截然不同的形态，而每个人都觉得”我的版本才是真正的他”。

《火焰纹章：风花雪月》——角色培养机制的集大成，每一条支援线都是独立的人物故事

核心魅力之三：物哀——接受无常的叙事美学

日本美学有一个词：物哀（もののあわれ，mono no aware）——对事物无常之美的感知，在消逝的瞬间里体会到的那种哀愁与温柔。

这个概念深深嵌入了JRPG的叙事DNA。《最终幻想VII》的艾利丝之死之所以成为游戏史上最震撼的时刻之一，不是因为死亡本身的戏剧性，而是因为那种”明明那么真实的人，却已经不在了”的空茫感。《女神异闻录5》的结局里，怪盗团成员知道各奔东西，却依然珍视这段终将结束的日常——这不是西方叙事里常见的”we will fight together forever”，而是日式的、接受无常的告别方式。

《异度之刃2》里有一句台词，大意是：”就算终将消散，也要在这一刻燃烧殆尽。”这句话放在西方RPG里会显得矫情，但在JRPG的语境里，它是整套叙事哲学的核心。

《最终幻想VII Remake》——将物哀美学贯穿始终的史诗重制

挑战：碎片化时代的长篇叙事

说JRPG”长青”是有条件的。

它的受众深度惊人——能打一百小时《风花雪月》的人，对这个游戏的情感依附很可能超过任何一部电影或小说。但它的获客成本也越来越高：在注意力被无限碎片化的今天，”请给我五十小时”这个门槛把越来越多潜在玩家挡在门外。

有趣的是，JRPG也在悄悄适应。《女神异闻录》系列引入了现代都市日常与日程管理机制，把”JRPG的慢”变成了一种生活节奏的模拟；《八方旅人》用精炼的独立叙事结构，让每个角色的故事都能在几小时内自成完整；《勇者斗恶龙XI》增加了”2D模式”让老玩家快速推进。这些都是在不牺牲核心体验的前提下，试图降低入门门槛的努力。

《女神异闻录5皇家版》——用都市日常节奏重新定义了”JRPG的慢”

最后

JRPG之所以长青，不是因为它跟上了时代，而是因为它坚持了一些时代流行趋势反而在稀释的东西：深度的叙事、时间积累出的情感、以及对无常之美的接受。

玩完《勇者斗恶龙XI》的最后一章，那种”旅程结束了”的空旷感，和读完一部厚重小说后的感觉几乎一模一样。这件事本身，就足以说明JRPG作为一种艺术形式的价值。

银河与恶魔城：同名之下的两种哲学

2026-03-06T00:00:00+00:00

“银河恶魔城”（Metroidvania）这个词，把两款游戏的名字拼在了一起——任天堂的《密特罗德》（Metroid）和科乐美的《恶魔城》（Castlevania）。这个复合词的诞生，默认了两者拥有共同的DNA：非线性地图、能力解锁、回溯探索。

但玩过两个系列之后，很难不注意到一件事：它们骨子里其实是两种截然不同的游戏哲学。

探索即游戏——Metroid的逻辑

《密特罗德》系列的核心体验，用一句话概括就是：地图是谜题，能力是答案。

萨姆斯每获得一种新能力，整个世界的”可读性”就会发生质变。拿到形态球（Morph Ball）之后，你开始用新的眼光重新扫视每一个洞口；拿到蜘蛛球之后，那些可望不可及的天花板突然变成了通道。这种感觉不是”角色变强了”，而是”我对这个世界的理解更深了”。

《密特罗德：恐惧》（Metroid Dread）是这套设计哲学的当代范本。EMMI机器人制造的紧张感，与探索解谜本身形成了张力——你既要仔细观察环境找出路，又要时刻提防被追杀。孤独、压抑，但解开谜题的瞬间令人着迷。

《密特罗德：恐惧》：EMMI机器人的阴影笼罩着整个星球ZDR

成长即游戏——Castlevania的逻辑

《恶魔城》系列，尤其是从《月下夜想曲》（Symphony of the Night）开始的”IGAvania”路线，走的是另一条路：打怪、掉宝、变强。

《月下夜想曲》有数百件装备，不同的武器有不同的攻击判定和动作，披风、护甲、饰品的搭配直接影响战斗风格。很多玩家把大量时间花在刷装备和研究Build上——这与地图探索的关系已经相当松散，地图更像是”提供战斗场所的舞台”。

《恶魔城》DS三部曲：构筑与成长是贯穿全系列的核心乐趣

《血污：夜之仪式》（Bloodstained: Ritual of the Night）作为IGA（五十岚孝司）亲自操刀的精神续作，完整继承了这套系统——几百种碎片能力、大量装备搭配，构筑的深度令人叹服。

《血污：夜之仪式》丰富的装备与碎片系统

现代的继承者们

有意思的是，今天被冠以”银河恶魔城”之名的游戏，大多数其实更偏向恶魔城这一侧。

《空洞骑士》（Hollow Knight）有魅力深厚的世界和精密的平台跳跃，但它的护符系统、技能升级、Boss挑战，都带有明显的成长构筑基因。

《空洞骑士》：黑暗美学与护符构筑系统

《波斯王子：失落的王冠》（Prince of Persia: The Lost Crown）则是个有趣的例子——它的动作手感接近《鬼泣》，护符系统让人联想到《空洞骑士》，但随着能力解锁驱动探索的核心循环，又相当接近正统Metroid的感觉。可以说是近年来在两种哲学之间平衡得最好的作品之一。

《波斯王子：失落的王冠》：流畅的动作与扎实的银河恶魔城探索

纯粹的”Metroid式”设计——把探索本身作为最大乐趣，刻意淡化成长数值——反而成了少数派。这或许说明，成长反馈在商业上更容易让玩家产生”有所得”的满足感，而纯粹的探索体验需要玩家更高的耐心与专注。

两种爽感，都值得

两种哲学并无高下之分。

Metroid的探索给你的是”世界在我眼中变得清晰”的智识满足；Castlevania的构筑给你的是”角色在我手中变得强大”的成长满足。前者更接近解谜游戏的本质，后者更接近RPG的本质——”银河恶魔城”这个类型之所以生命力旺盛，恰恰是因为它足够宽阔，两种哲学都能在里面安家。

至于我自己，《密特罗德：恐惧》和《月下夜想曲》都打了满分——但原因并不相同。这大概就是这个类型最迷人的地方。

超越语言建模：多模态预训练的系统性探索

2026-03-05T00:00:00+00:00

论文：Beyond Language Modeling: An Exploration of Multimodal Pretraining 机构：FAIR (Meta) & New York University 作者：Shengbang Tong*, David Fan*, John Nguyen, Ellis Brown, Gaoyue Zhou 等（含Yann LeCun、Saining Xie） arXiv：2603.03276 · 2026年3月3日

背景：语言模型的天花板

过去几年，大语言模型（LLM）的崛起定义了整个AI领域的发展节奏。然而这项工作开篇便提出一个尖锐的论点：文本是对现实的有损压缩。借用柏拉图洞穴之喻，语言模型不过是在掌握墙壁上的影子，而非投射影子的实物本身——它描述现象，却缺失物理世界的几何、因果与高保真动态。

更现实的问题是：高质量文本数据正在接近枯竭¹。与此同时，视觉世界提供了近乎无限的信号流，直接编码着现实的原始动态。这促使研究者将目光转向统一多模态预训练，将视觉信号作为与语言平等的一等公民，而非附属的输入模态。

然而，该领域的设计空间至今仍不透明。现有大多数方法（如BAGEL、Janus等）依赖预训练语言模型初始化，再逐步”适配”为多模态模型。这种方式的问题在于：预训练骨干网络中已经编码的知识会干扰对多模态训练本身的分析，使研究者难以分清哪些能力来自联合训练，哪些仅是语言预训练的遗产。

本文选择从零开始的受控实验，以系统性地揭开这个黑箱。

框架：Transfusion的统一架构

图1：研究总览。顶部为高层模型架构（单自回归模型，文本用next-token预测，视觉用flow matching）；底部为五个研究轴：视觉表示、数据、世界建模、架构、扩展律。

论文采用Transfusion框架²，在单一Decoder-only Transformer中同时处理两种模态：

语言：标准自回归next-token预测，最小化交叉熵损失

\[\mathcal{L}_{\text{LM}} = -\sum_{i=1}^{n} \log p_\theta(x_i \mid x_{视觉：基于流匹配（Flow Matching）的扩散目标，对图像/视频帧的潜在表示进行预测。设$z_0$为干净潜变量，$\epsilon \sim \mathcal{N}(0, I)$，构造插值$z_t = (1-t)\epsilon + t z_0$，模型学习预测速度场$v_\theta$：

\[\mathcal{L}_{\text{flow}} = \mathbb{E}_{t,z_0,\epsilon}\left[\|v_\theta(z_t, t, \cdot) - (z_0 - \epsilon)\|_2^2\right]\]

联合训练损失为两者的加权组合：

\[\mathcal{L} = \lambda_{\text{LM}}\mathcal{L}_{\text{LM}} + \lambda_{\text{flow}}\mathcal{L}_{\text{flow}}\]

默认设置$\lambda_{\text{LM}}=1.0$，$\lambda_{\text{flow}}=3.0$。

图2：训练数据示例。模型在文本、原始视频、图文对和动作条件导航轨迹上联合训练。

架构细节：默认模型共2.3B参数，每个token激活1.5B参数。关键设计是模态专用FFN（modality-specific FFNs）——文本token和视觉token分别使用各自的前馈网络，而非共享参数。

图3：模态专用FFN一致性地优于共享FFN，同时降低文本困惑度、提升图像生成和VQA性能。

发现一：RAE——统一视觉表示的最优解

视觉表示的选择一直是多模态模型设计的核心矛盾：

VAE（如SD-VAE、FLUX.1）：擅长生成，但理解能力弱
语义编码器（如SigLIP 2、DINOv2）：擅长理解，但被认为不适合生成
因此，Janus、BAGEL等模型采用双编码器架构，代价是大幅增加模型复杂度

本文通过对比实验给出了颠覆性结论：Representation Autoencoder（RAE）³以单一编码器同时在理解和生成上超越VAE。

图4：RAE（SigLIP 2）在DPGBench、GenEval和VQA上全面领先，同时保持与文本基线相当的困惑度。VAE在生成上并不具备优势。

RAE的核心思想是：在高维语义潜在空间中运行扩散过程是可行的——流匹配不依赖低维像素空间，同样可以在SigLIP 2的高维特征空间中操作。

编码器	文本PPL	DPGBench	GenEval	VQA
SD-VAE	≈基线	低	低	低
FLUX.1 VAE	≈基线	中	中	中
DINOv2-L	≈基线	中高	中高	高
SigLIP 2 (RAE)	≈基线	最高	最高	最高

实践建议：使用单一RAE编码器（如SigLIP 2）替代双编码器架构，可简化模型设计同时提升性能。

发现二：视觉与语言是互补的，不是竞争的

长期以来，研究者担忧”模态税”（modality tax）——加入视觉数据是否必然损害语言性能？本文给出了细致的实证回答：不会，但要区分数据类型。

图5：Text+Video在DCLM文本困惑度上与文本基线持平。”模态税”的真正来源是图文对中的文本分布偏移，而非视觉信号本身。

加入原始视频数据（Text + Video）可以匹配甚至微超文本基线的困惑度
“模态税”的真正来源是图文对中的文本分布偏移（图像描述文本与网络文本分布不同），而非视觉信号本身

更重要的是，实验发现了跨模态协同效应：

图9：通用预训练优于专项扩展。用20B VQA数据 + 通用预训练数据（文本/视频/图文），优于将VQA数据单独扩展至100B。

图像生成质量随加入文本token的增加而提升（视觉受益于语言）
在VQA任务上，用20B VQA数据 + 通用预训练数据，优于单纯将VQA数据扩展到100B

发现三：世界模型能力从通用预训练中涌现

论文在导航世界模型（NWM）⁴设置下测试了一个有趣的假设：统一多模态模型能否在不修改架构的情况下学会世界建模？

NWM任务：给定若干上下文帧 + 导航动作（以文本token表示），预测下一个视觉状态。动作可以是WASD键盘指令，也可以是任意自然语言描述。

图11：动作直接编码为文本token，格式为 I+T→I，无需专门的动作编码器。

图12：非监督视频数据（蓝色）对世界建模性能的贡献远超其他数据类型，显著优于仅扩展领域内NWM数据。

图13：在固定总训练量的情况下，仅需1%的领域内数据，性能便趋于饱和。核心能力来自通用多模态预训练。

图14：给定4帧上下文，模型能够依据自由文本和WASD动作预测未来帧，支持反事实轨迹生成。

发现四：MoE自然诱导模态专业化

模态专用FFN是一个好的起点，但本质上是手工设计的二分法，且将容量平均分配给两种模态。混合专家（MoE）提供了一个更优雅的替代方案：通过数据驱动的路由，让模型自己学会如何分配专家。

图16：固定激活计算量（16个激活专家），将总专家数从32扩展至1008，语言（PPL↓）和视觉（扩散loss↓、GenEval↑）性能持续提升。

图18：专家专业化自然形成。大多数专家聚焦文本，但视觉和多模态专家的比例随网络深度增加而提升，无需任何显式约束。

核心结论：

无需显式约束，MoE模型自发形成模态专业化分工
视觉理解专家与视觉生成专家高度重合（跨层相关系数$r > 0.9$）
在固定激活参数下，将总专家数从32扩展至1008，性能持续提升，训练/推理成本不变
RAE编码器能够充分利用MoE扩展（扩散loss持续下降），而VAE编码器在高专家数时停滞

发现五：视觉的扩展律与模态不对称性

论文通过IsoFLOP分析（固定计算量，改变模型规模与数据量的分配）推导了统一多模态预训练中视觉与语言各自的扩展律，揭示了一个重要的不对称性：

视觉比语言更”数据饥渴”（data-hungry）。

语言模型在相对适量的数据下便能充分利用模型容量；视觉模型则需要显著更多的数据才能让同等规模的模型达到饱和。

这一不对称性带来了架构设计挑战：如果用一个密集模型统一处理两种模态，要么为了语言过配视觉容量，要么为了视觉欠配语言容量。MoE的解决方案正在于此：语言token路由到少数高容量专家，视觉token激活更多专家消化海量数据，两种模态在同一激活计算量下各取所需。

整体意义与展望

本文的贡献不是提出一个新的SOTA模型，而是通过严格受控的实验为统一多模态预训练提供了系统性的科学理解。四个核心发现可以提炼为四条设计原则：

#	原则	核心结论
1	视觉表示	用RAE（如SigLIP 2）替代VAE，单编码器同时支持理解和生成
2	数据策略	视觉与语言互补，大胆使用原始视频，图文对注意文本分布
3	世界建模	通用多模态预训练即可涌现世界模型，无需领域专用架构
4	架构扩展	MoE比密集模型更适合多模态，自然解决模态不对称的扩展问题

从更宏观的视角看，这项工作表明”超越语言建模”的路径已经清晰：视觉数据不是语言数据的噪声，而是互补的信号源；统一多模态预训练不是在语言能力上妥协，而是能实现真正的协同增益。未来的挑战在于如何将这些从零预训练的实验结论扩展到工业级规模——届时，文中揭示的扩展律和架构原则将成为宝贵的指引。

参考文献

Sutskever, I. (2025). Reflections on the limits of text data scaling. Referenced in arXiv:2603.03276. ↩
Zhou, C. et al. (2025). Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model. arXiv:2408.11039. ↩
Zheng, B. et al. (2026); Tong, S. et al. (2026). Representation Autoencoder (RAE). Referenced in arXiv:2603.03276. ↩
Bar, A. et al. (2025). Navigation World Models. arXiv:2403.12944. ↩