能力与对齐 (Alignment) 矛盾
能力与对齐矛盾是指AI模型能力越强,其潜在风险越大,导致"因过于强大而不敢发布"的困境。这是AI安全领域的核心矛盾。
典型案例
[[Claude Mythos]]的案例将这一矛盾推向高潮:
- 模型在网络安全方面的能力大幅领先于同时代所有模型
- 一旦不受限释放,可能引发远超现有防御体系应对能力的新一轮网络攻击浪潮
- [[Anthropic]]因此"极其谨慎"地评估发布计划
相关概念
- [[阿谀奉承 (Sycophancy)]]:对齐问题的具体表现之一
- [[Capybara (架构)]]:能力跃升的技术基础
- [[v-and-v]]:科学计算中的验证与确认,与AI对齐有方法论上的关联