LLM 的原理与标新立异之间，真的有矛盾吗？

2026-06-22

LLM, AI Agent, 人工智能, 认知科学, 机器学习, 创新

摘要：有人认为，LLM 的训练目标是降低 loss、贴近 ground truth，所以它在数学上不可能产生真正的新想法。这个判断抓住了一个真实张力，但结论过早：LLM 的局限不是不能组合出新东西，而是它无法单独证明这些新东西是否有价值。

LLM 的训练目标与创新张力

最近有一个很有代表性的说法：LLM 的训练目标是降低 loss，监督微调和 RLHF 又会进一步让模型贴近规则、偏好和 ground truth，所以它在数学上不可能产生真正的新想法。一个模型如果真的能标新立异，反而说明它偏离了训练目标，loss 应该很高。

这个判断听起来很硬核，因为它把“创新”放到了机器学习目标函数里讨论。

但它的问题也在这里：它把训练阶段的目标、推理阶段的组合能力、现实世界的新价值验证，混成了一件事。

LLM 的确不是一个凭空创造真理的机器。它不会因为“想创新”就突然跳出人类知识之外，独立发明一个新物理定律。它的训练目标也确实会把模型拉向既有语料、既有规则和既有偏好。

可是，降低 loss 并不等于只能复读。

大模型学到的不是一个句子库，而是语言、概念、因果片段、类比关系、代码模式、证明风格、叙事结构和问题求解路径的高维压缩。推理时，它不是从数据库里取出一句标准答案，而是在这个压缩空间里生成一个满足上下文约束的候选解。

创新与 LLM 的矛盾，不在于“模型有没有可能生成从未出现过的组合”，而在于：模型能生成新组合，却不能独自证明这个新组合有价值。

先把“创新”拆开

讨论 LLM 能不能创新之前，必须先问：我们说的创新到底是什么？

如果创新指的是“从宇宙之外凭空拿来一个绝对原创的观念”，那人类也很少做到。绝大多数创新不是无中生有，而是已有要素的新组合、新迁移、新解释、新压缩。

蒸汽机不是凭空来的，它来自热力学、机械结构、矿井排水和工业需求的组合。智能手机不是凭空来的，它是通信、触摸屏、芯片、操作系统、互联网服务和供应链能力的汇聚。Transformer 也不是从真空里长出来的，它继承了注意力机制、序列建模、并行计算和大规模数据训练的长期积累。

真正的创新通常有三层：

第一层是组合。把原本分散的概念、工具、场景放到一起。

第二层是重构。不是简单拼接，而是改写问题的表达方式，让旧材料在新框架里产生新作用。

第三层是验证。这个新组合必须在现实中成立：能解释更多现象，能解决更难问题，能降低成本，能带来新的审美或新的组织方式。

LLM 在前两层确实有能力，甚至很强。它特别擅长跨领域类比、快速列出方案、生成变体、把一个领域的结构迁移到另一个领域。

但第三层，才是它的根本短板。

降低 loss 学到的是分布，不是服从

预训练的基本任务可以粗略理解为：给定上下文，预测下一个 token。模型通过降低预测误差，学习语言分布。

很多人据此得出一个过度简化的结论：既然它只是预测最可能的下一个词，那它必然只能输出陈词滥调。

这不对。

“预测下一个 token”只是训练接口，不等于模型内部只学会了词频统计。要在海量文本上持续降低 loss，模型必须学习更深层的结构：语法、事实、风格、推理模板、代码语义、数学符号关系、论证结构、任务格式、隐含意图。否则它不可能在复杂上下文中稳定生成连贯答案。

一个孩子学写文章，也是在大量范文和反馈中学习“什么样的表达更像好文章”。这不意味着他只能复读范文。学习规则，是为了在规则里产生可理解的新表达。

LLM 也是如此。

降低 loss 会把模型拉向数据分布，但数据分布本身不是一条线，而是一个巨大的空间。模型可以在这个空间里插值、外推、压缩、重组。它生成的一段代码、一篇文章、一个产品方案，往往不是训练集中存在过的原文，而是多个模式共同约束下的新样本。

所以，“loss 越低越不能创新”这个说法只抓住了一半。更准确的说法是：loss 越低，模型越能掌握既有结构；但是否能在结构上产生有价值的新组合，取决于推理策略、上下文、工具反馈和外部验证。

SFT 和 RLHF 确实会压低怪异性

不过，反方也不是完全错。

在预训练之后，模型通常会经历监督微调、偏好对齐、RLHF 或类似过程。这些阶段会让模型更听话、更安全、更像一个可用助手。

代价也很明显：模型会更倾向于输出“被奖励过的答案形态”。

它会更礼貌，更稳妥，更结构化，更喜欢列点，更少冒犯人，更少走极端路径。这对产品可用性是好事，但对“标新立异”确实有压制作用。

很多时候，用户想要的是一个危险的、奇怪的、反直觉的、有突破性的想法；模型却会给一个中庸、平滑、没有棱角的行业分析。这不是因为预训练没有组合能力，而是对齐阶段把它的表达风格和风险偏好往安全区拉了回来。

这也是为什么同一个底座模型，在不同系统提示、不同采样温度、不同工具链和不同评估目标下，会表现出完全不同的创造性。

让模型写一份合规公告，它会收敛。

让模型做 50 个反常识假设，再让另一个评估器筛选，它会发散。

让模型进入代码 Agent 循环，先生成多个方案，再跑测试、跑仿真、看用户反馈，它就不只是“预测文本”，而是在一个外部环境中搜索解。

所以问题不是 LLM 天生不能创新，而是默认产品形态经常把它训练成“安全回答机器”。

创新的本质是搜索，不是宣言

人类创新并不是脑袋里突然冒出一个完美答案。

它更像搜索。

科学家提出假说，做实验，失败，修正；工程师画方案，做原型，测试，返工；创业者发现需求，做产品，找用户，改定位；艺术家尝试形式，筛掉庸常部分，留下有张力的表达。

LLM 很适合承担搜索过程的一部分。

它可以快速扩大候选空间：给出十种解释、二十种方案、五十个标题、一百个产品角度。它可以把一个工业问题类比成软件架构问题，把一个组织问题类比成控制系统问题，把一个代码重构问题类比成城市交通问题。它可以把已知材料重新排列，让人看到原本没有想到的路径。

这当然不是最终意义上的创新，但它是创新的前半段。

真正的问题是，LLM 生成候选方案之后，谁来筛选？

如果筛选者还是模型自己，而且没有外部信号，那么系统很容易陷入“看起来很新”的幻觉。它会把一个空洞类比包装成深刻洞见，把一个不可执行方案包装成战略框架，把一个没有实验支持的假说包装成结论。

这就是 LLM 与创新之间真正危险的矛盾：它能低成本生产大量貌似新颖的候选想法，却没有内生机制证明哪些是真的新、真的对、真的有用。

ground truth 不是创新的敌人

有人会说，创新本来就要偏离 ground truth。既然模型被训练去贴近 ground truth，它怎么可能创新？

这里也有一个误解。

Ground truth 对应的是已知任务里的正确答案。数学题的答案、代码测试的通过结果、事实问答的真实资料、医学诊断的临床证据，这些地方确实不应该为了“创新”而偏离。

把 2+2 答成 5，不叫创新。

把一个药物副作用编成不存在，不叫创新。

把法律条文 hallucinate 成一个听起来合理的版本，也不叫创新。

真正的创新不是随机偏离正确答案，而是在正确约束之内找到新的有效路径。

一个更好的算法，必须在计算结果正确的前提下更快；一个新材料，必须在物理化学约束下表现更好；一个新商业模式，必须在成本、需求、渠道和信任机制上跑得通；一个新设计，必须在审美之外也考虑使用场景和制造边界。

因此，ground truth 不是创新的敌人。它是创新的地基。

没有地基的“标新立异”，只是噪声。

LLM 能产生的“新”，更像候选假说

更准确地说，LLM 输出的新想法应该被看成候选假说，而不是最终结论。

它可能提供一个新的解释框架。

它可能帮你把两个原本不相干的领域连接起来。

它可能给出一个产品命名、一个技术路线、一个系统架构、一个故事设定、一个研究问题。

这些东西在文本层面可能是新的，但它们还没有通过现实检验。

一篇文章的新观点，要看它是否解释了旧观点解释不了的现象；一个产品想法，要看用户是否真的需要；一个工程方案，要看性能、成本、维护性和风险；一个科学假说，要看实验是否支持。

所以，LLM 的创新能力不能用“它能不能说出从未有人说过的话”来衡量。

那太容易了。随机字符串也能做到。

真正要衡量的是：它能不能提出高质量候选，并让人类或工具更快找到有价值的那一小部分。

LLM 创新验证栈

这就把问题从“模型有没有原创性”转成了“系统有没有验证栈”。

标新立异需要偏离，但不能只靠偏离

创新确实需要偏离主流分布。

如果一个模型永远输出最常见答案，它不会有突破。如果一个团队永远选择最安全路径，它不会有新产品。如果一个科学共同体永远只接受已有解释，它不会出现范式转换。

但偏离本身不等于创新。

偏离有三种。

第一种是错误偏离。它只是错了。

第二种是随机偏离。它不一定错，但没有结构，没有可复现价值。

第三种是有效偏离。它违背常识的一部分，却保留了底层约束，并在某个新场景里表现更好。

人类真正追求的是第三种。

LLM 的问题在于，它能生成三种偏离，却经常无法稳定区分三者。它可能把错误偏离解释得很像有效偏离，也可能把随机偏离讲成宏大理论。

这就是为什么越强调 LLM 创新，越不能离开 evaluator。

创新不是“让模型大胆说”，而是“让模型大胆生成候选，再用更强的评估机制筛掉大部分无效偏离”。

未来的 AI 创新系统，不会只有一个模型

如果把 LLM 看成一个聊天机器人，那么它确实很难承担完整创新。

但如果把它放进一个系统里，情况就不同了。

一个更接近未来的创新系统，至少包含五部分：

第一，生成器。LLM 负责提出假设、方案、类比、设计和代码。

第二，工具环境。搜索引擎、数据库、仿真器、编译器、实验平台、CAD/CAE、市场数据系统，负责提供非语言反馈。

第三，评估器。测试、规则、LLM-as-judge、专家审查、用户行为和真实指标，负责筛选候选。

第四，记忆系统。把失败样本、成功案例、实验结果沉淀下来，避免每次从零开始。

第五，人类判断。定义什么值得做，什么风险不能碰，什么结果才算有价值。

在这个系统里，LLM 不是创新主体的全部，而是创新搜索引擎。

它的价值不是替代人类灵感，而是降低试错成本，扩大探索半径，把更多可能性提前摆到桌面上。

对人类来说，真正的变化是什么

如果 LLM 只是更快的复读机，那人类不需要改变工作方式。

但如果 LLM 是一个高通量候选生成器，人类的角色就变了。

过去，人类很多时间花在“想出第一个方案”上。以后，第一批方案很快就会出现。真正稀缺的能力会变成：

定义好问题；
设置约束；
识别伪创新；
设计验证路径；
在大量候选中保留少数值得继续投入的方向；
对最终价值负责。

换句话说，人类不只是 prompt writer，而是问题定义者、评估体系设计者和价值裁判。

这也解释了为什么“LLM 不能创新”的争论容易跑偏。

如果把创新理解成神秘的天才闪现，LLM 当然不像人类。

如果把创新理解成“在约束下搜索新组合，并通过现实反馈筛选有效差异”，那 LLM 已经是一个强力组件，只是还远远不是完整系统。

结语：矛盾是真的，但结论不是“不能创新”

LLM 的原理与标新立异之间确实有矛盾。

训练要降低 loss，创新要产生差异。

对齐要减少危险输出，突破经常来自非共识路径。

模型要贴近人类偏好，真正的新东西一开始却常常不符合旧偏好。

这个矛盾是真实的。

但它不推出“LLM 数学上不可能产生新想法”。它只能推出一个更克制、更准确的结论：

LLM 可以生成新组合、新类比和新假说，但它不能单独完成新价值的证明。

所以，我们既不该把 LLM 神化成自动创新机器，也不该把它贬低成概率复读机。

它更像一个强大的候选生成器：能把人类知识空间重新排列，能压缩搜索路径，能给出大量可探索方向。

至于哪些方向真有价值，仍然需要工具、实验、市场、专家、用户和时间来判断。

标新立异不是偏离 ground truth。

标新立异是：在真实约束下，找到一种以前没有被看见、但验证之后仍然成立的有效差异。

LLM 能帮我们更快到达这个差异附近。

但最后那一步，必须交给现实。

参考资料

[1] Vaswani et al., “Attention Is All You Need”, 2017, https://arxiv.org/abs/1706.03762

[2] Brown et al., “Language Models are Few-Shot Learners”, 2020, https://arxiv.org/abs/2005.14165

[3] Ouyang et al., “Training language models to follow instructions with human feedback”, 2022, https://arxiv.org/abs/2203.02155

[4] Sutton, “The Bitter Lesson”, 2019, http://www.incompleteideas.net/IncIdeas/BitterLesson.html

[5] OpenAI, “Evaluation best practices”, https://developers.openai.com/api/docs/guides/evaluation-best-practices

AI技术