LLM 的原理与标新立异之间,真的有矛盾吗?

摘要:有人认为,LLM 的训练目标是降低 loss、贴近 ground truth,所以它在数学上不可能产生真正的新想法。这个判断抓住了一个真实张力,但结论过早:LLM 的局限不是不能组合出新东西,而是它无法单独证明这些新东西是否有价值。

LLM 的训练目标与创新张力

最近有一个很有代表性的说法:LLM 的训练目标是降低 loss,监督微调和 RLHF 又会进一步让模型贴近规则、偏好和 ground truth,所以它在数学上不可能产生真正的新想法。一个模型如果真的能标新立异,反而说明它偏离了训练目标,loss 应该很高。

这个判断听起来很硬核,因为它把“创新”放到了机器学习目标函数里讨论。

但它的问题也在这里:它把训练阶段的目标、推理阶段的组合能力、现实世界的新价值验证,混成了一件事。

LLM 的确不是一个凭空创造真理的机器。它不会因为“想创新”就突然跳出人类知识之外,独立发明一个新物理定律。它的训练目标也确实会把模型拉向既有语料、既有规则和既有偏好。

可是,降低 loss 并不等于只能复读。

大模型学到的不是一个句子库,而是语言、概念、因果片段、类比关系、代码模式、证明风格、叙事结构和问题求解路径的高维压缩。推理时,它不是从数据库里取出一句标准答案,而是在这个压缩空间里生成一个满足上下文约束的候选解。

创新与 LLM 的矛盾,不在于“模型有没有可能生成从未出现过的组合”,而在于:模型能生成新组合,却不能独自证明这个新组合有价值。

先把“创新”拆开

讨论 LLM 能不能创新之前,必须先问:我们说的创新到底是什么?

如果创新指的是“从宇宙之外凭空拿来一个绝对原创的观念”,那人类也很少做到。绝大多数创新不是无中生有,而是已有要素的新组合、新迁移、新解释、新压缩。

蒸汽机不是凭空来的,它来自热力学、机械结构、矿井排水和工业需求的组合。智能手机不是凭空来的,它是通信、触摸屏、芯片、操作系统、互联网服务和供应链能力的汇聚。Transformer 也不是从真空里长出来的,它继承了注意力机制、序列建模、并行计算和大规模数据训练的长期积累。

真正的创新通常有三层:

第一层是组合。把原本分散的概念、工具、场景放到一起。

第二层是重构。不是简单拼接,而是改写问题的表达方式,让旧材料在新框架里产生新作用。

第三层是验证。这个新组合必须在现实中成立:能解释更多现象,能解决更难问题,能降低成本,能带来新的审美或新的组织方式。

LLM 在前两层确实有能力,甚至很强。它特别擅长跨领域类比、快速列出方案、生成变体、把一个领域的结构迁移到另一个领域。

但第三层,才是它的根本短板。

降低 loss 学到的是分布,不是服从

预训练的基本任务可以粗略理解为:给定上下文,预测下一个 token。模型通过降低预测误差,学习语言分布。

很多人据此得出一个过度简化的结论:既然它只是预测最可能的下一个词,那它必然只能输出陈词滥调。

这不对。

“预测下一个 token”只是训练接口,不等于模型内部只学会了词频统计。要在海量文本上持续降低 loss,模型必须学习更深层的结构:语法、事实、风格、推理模板、代码语义、数学符号关系、论证结构、任务格式、隐含意图。否则它不可能在复杂上下文中稳定生成连贯答案。

一个孩子学写文章,也是在大量范文和反馈中学习“什么样的表达更像好文章”。这不意味着他只能复读范文。学习规则,是为了在规则里产生可理解的新表达。

LLM 也是如此。

降低 loss 会把模型拉向数据分布,但数据分布本身不是一条线,而是一个巨大的空间。模型可以在这个空间里插值、外推、压缩、重组。它生成的一段代码、一篇文章、一个产品方案,往往不是训练集中存在过的原文,而是多个模式共同约束下的新样本。

所以,“loss 越低越不能创新”这个说法只抓住了一半。更准确的说法是:loss 越低,模型越能掌握既有结构;但是否能在结构上产生有价值的新组合,取决于推理策略、上下文、工具反馈和外部验证。

SFT 和 RLHF 确实会压低怪异性

不过,反方也不是完全错。

在预训练之后,模型通常会经历监督微调、偏好对齐、RLHF 或类似过程。这些阶段会让模型更听话、更安全、更像一个可用助手。

代价也很明显:模型会更倾向于输出“被奖励过的答案形态”。

它会更礼貌,更稳妥,更结构化,更喜欢列点,更少冒犯人,更少走极端路径。这对产品可用性是好事,但对“标新立异”确实有压制作用。

很多时候,用户想要的是一个危险的、奇怪的、反直觉的、有突破性的想法;模型却会给一个中庸、平滑、没有棱角的行业分析。这不是因为预训练没有组合能力,而是对齐阶段把它的表达风格和风险偏好往安全区拉了回来。

这也是为什么同一个底座模型,在不同系统提示、不同采样温度、不同工具链和不同评估目标下,会表现出完全不同的创造性。

让模型写一份合规公告,它会收敛。

让模型做 50 个反常识假设,再让另一个评估器筛选,它会发散。

让模型进入代码 Agent 循环,先生成多个方案,再跑测试、跑仿真、看用户反馈,它就不只是“预测文本”,而是在一个外部环境中搜索解。

所以问题不是 LLM 天生不能创新,而是默认产品形态经常把它训练成“安全回答机器”。

创新的本质是搜索,不是宣言

人类创新并不是脑袋里突然冒出一个完美答案。

它更像搜索。

科学家提出假说,做实验,失败,修正;工程师画方案,做原型,测试,返工;创业者发现需求,做产品,找用户,改定位;艺术家尝试形式,筛掉庸常部分,留下有张力的表达。

LLM 很适合承担搜索过程的一部分。

它可以快速扩大候选空间:给出十种解释、二十种方案、五十个标题、一百个产品角度。它可以把一个工业问题类比成软件架构问题,把一个组织问题类比成控制系统问题,把一个代码重构问题类比成城市交通问题。它可以把已知材料重新排列,让人看到原本没有想到的路径。

这当然不是最终意义上的创新,但它是创新的前半段。

真正的问题是,LLM 生成候选方案之后,谁来筛选?

如果筛选者还是模型自己,而且没有外部信号,那么系统很容易陷入“看起来很新”的幻觉。它会把一个空洞类比包装成深刻洞见,把一个不可执行方案包装成战略框架,把一个没有实验支持的假说包装成结论。

这就是 LLM 与创新之间真正危险的矛盾:它能低成本生产大量貌似新颖的候选想法,却没有内生机制证明哪些是真的新、真的对、真的有用。

ground truth 不是创新的敌人

有人会说,创新本来就要偏离 ground truth。既然模型被训练去贴近 ground truth,它怎么可能创新?

这里也有一个误解。

Ground truth 对应的是已知任务里的正确答案。数学题的答案、代码测试的通过结果、事实问答的真实资料、医学诊断的临床证据,这些地方确实不应该为了“创新”而偏离。

把 2+2 答成 5,不叫创新。

把一个药物副作用编成不存在,不叫创新。

把法律条文 hallucinate 成一个听起来合理的版本,也不叫创新。

真正的创新不是随机偏离正确答案,而是在正确约束之内找到新的有效路径。

一个更好的算法,必须在计算结果正确的前提下更快;一个新材料,必须在物理化学约束下表现更好;一个新商业模式,必须在成本、需求、渠道和信任机制上跑得通;一个新设计,必须在审美之外也考虑使用场景和制造边界。

因此,ground truth 不是创新的敌人。它是创新的地基。

没有地基的“标新立异”,只是噪声。

LLM 能产生的“新”,更像候选假说

更准确地说,LLM 输出的新想法应该被看成候选假说,而不是最终结论。

它可能提供一个新的解释框架。

它可能帮你把两个原本不相干的领域连接起来。

它可能给出一个产品命名、一个技术路线、一个系统架构、一个故事设定、一个研究问题。

这些东西在文本层面可能是新的,但它们还没有通过现实检验。

一篇文章的新观点,要看它是否解释了旧观点解释不了的现象;一个产品想法,要看用户是否真的需要;一个工程方案,要看性能、成本、维护性和风险;一个科学假说,要看实验是否支持。

所以,LLM 的创新能力不能用“它能不能说出从未有人说过的话”来衡量。

那太容易了。随机字符串也能做到。

真正要衡量的是:它能不能提出高质量候选,并让人类或工具更快找到有价值的那一小部分。

LLM 创新验证栈

这就把问题从“模型有没有原创性”转成了“系统有没有验证栈”。

标新立异需要偏离,但不能只靠偏离

创新确实需要偏离主流分布。

如果一个模型永远输出最常见答案,它不会有突破。如果一个团队永远选择最安全路径,它不会有新产品。如果一个科学共同体永远只接受已有解释,它不会出现范式转换。

但偏离本身不等于创新。

偏离有三种。

第一种是错误偏离。它只是错了。

第二种是随机偏离。它不一定错,但没有结构,没有可复现价值。

第三种是有效偏离。它违背常识的一部分,却保留了底层约束,并在某个新场景里表现更好。

人类真正追求的是第三种。

LLM 的问题在于,它能生成三种偏离,却经常无法稳定区分三者。它可能把错误偏离解释得很像有效偏离,也可能把随机偏离讲成宏大理论。

这就是为什么越强调 LLM 创新,越不能离开 evaluator。

创新不是“让模型大胆说”,而是“让模型大胆生成候选,再用更强的评估机制筛掉大部分无效偏离”。

未来的 AI 创新系统,不会只有一个模型

如果把 LLM 看成一个聊天机器人,那么它确实很难承担完整创新。

但如果把它放进一个系统里,情况就不同了。

一个更接近未来的创新系统,至少包含五部分:

第一,生成器。LLM 负责提出假设、方案、类比、设计和代码。

第二,工具环境。搜索引擎、数据库、仿真器、编译器、实验平台、CAD/CAE、市场数据系统,负责提供非语言反馈。

第三,评估器。测试、规则、LLM-as-judge、专家审查、用户行为和真实指标,负责筛选候选。

第四,记忆系统。把失败样本、成功案例、实验结果沉淀下来,避免每次从零开始。

第五,人类判断。定义什么值得做,什么风险不能碰,什么结果才算有价值。

在这个系统里,LLM 不是创新主体的全部,而是创新搜索引擎。

它的价值不是替代人类灵感,而是降低试错成本,扩大探索半径,把更多可能性提前摆到桌面上。

对人类来说,真正的变化是什么

如果 LLM 只是更快的复读机,那人类不需要改变工作方式。

但如果 LLM 是一个高通量候选生成器,人类的角色就变了。

过去,人类很多时间花在“想出第一个方案”上。以后,第一批方案很快就会出现。真正稀缺的能力会变成:

  • 定义好问题;
  • 设置约束;
  • 识别伪创新;
  • 设计验证路径;
  • 在大量候选中保留少数值得继续投入的方向;
  • 对最终价值负责。

换句话说,人类不只是 prompt writer,而是问题定义者、评估体系设计者和价值裁判。

这也解释了为什么“LLM 不能创新”的争论容易跑偏。

如果把创新理解成神秘的天才闪现,LLM 当然不像人类。

如果把创新理解成“在约束下搜索新组合,并通过现实反馈筛选有效差异”,那 LLM 已经是一个强力组件,只是还远远不是完整系统。

结语:矛盾是真的,但结论不是“不能创新”

LLM 的原理与标新立异之间确实有矛盾。

训练要降低 loss,创新要产生差异。

对齐要减少危险输出,突破经常来自非共识路径。

模型要贴近人类偏好,真正的新东西一开始却常常不符合旧偏好。

这个矛盾是真实的。

但它不推出“LLM 数学上不可能产生新想法”。它只能推出一个更克制、更准确的结论:

LLM 可以生成新组合、新类比和新假说,但它不能单独完成新价值的证明。

所以,我们既不该把 LLM 神化成自动创新机器,也不该把它贬低成概率复读机。

它更像一个强大的候选生成器:能把人类知识空间重新排列,能压缩搜索路径,能给出大量可探索方向。

至于哪些方向真有价值,仍然需要工具、实验、市场、专家、用户和时间来判断。

标新立异不是偏离 ground truth。

标新立异是:在真实约束下,找到一种以前没有被看见、但验证之后仍然成立的有效差异。

LLM 能帮我们更快到达这个差异附近。

但最后那一步,必须交给现实。

参考资料

[1] Vaswani et al., “Attention Is All You Need”, 2017, https://arxiv.org/abs/1706.03762

[2] Brown et al., “Language Models are Few-Shot Learners”, 2020, https://arxiv.org/abs/2005.14165

[3] Ouyang et al., “Training language models to follow instructions with human feedback”, 2022, https://arxiv.org/abs/2203.02155

[4] Sutton, “The Bitter Lesson”, 2019, http://www.incompleteideas.net/IncIdeas/BitterLesson.html

[5] OpenAI, “Evaluation best practices”, https://developers.openai.com/api/docs/guides/evaluation-best-practices

分享到