涌现能力
涌现能力(Emergent Abilities)是大语言模型(LLM)与前代模型最本质的区别。这种能力在小型模型中几乎不存在,但当模型规模(参数)达到一定阈值(通常认为是100亿参数以上)时会突然爆发。这种现象在科学上类似于物理学的"相变"。
核心表现
LLM展现出的三大核心涌现能力包括:
- [[上下文学习]]:只要在对话中给模型几个例子(Prompt),它就能立刻学会一种从未见过的新任务,而无需修改任何参数。这是一个革命性的变化。
- [[指令遵循]]:经过特定的对齐训练,模型可以听懂人类的自然语言指令。哪怕是一个以前从未训练过的复杂要求,它也能通过理解语义来执行。
- [[思维链]]:对于逻辑题或数学题,只要在Prompt中加上一句"让我们一步步思考",模型就能通过生成中间推理步骤,显著提升解决难题的成功率。
意义
涌现能力解释了"大即是智能"的核心原因,是理解LLM的起点。它使得LLM从特定任务的辅助工具进化为能够解决各种现实问题的"通用任务解决者"。