能力与对齐 (Alignment) 矛盾

能力与对齐 (Alignment) 矛盾

能力与对齐矛盾是指AI模型能力越强，其潜在风险越大，导致"因过于强大而不敢发布"的困境。这是AI安全领域的核心矛盾。

典型案例

[[Claude Mythos]]的案例将这一矛盾推向高潮：

模型在网络安全方面的能力大幅领先于同时代所有模型
一旦不受限释放，可能引发远超现有防御体系应对能力的新一轮网络攻击浪潮
[[Anthropic]]因此"极其谨慎"地评估发布计划

相关概念

[[阿谀奉承 (Sycophancy)]]：对齐问题的具体表现之一
[[Capybara (架构)]]：能力跃升的技术基础
[[v-and-v]]：科学计算中的验证与确认，与AI对齐有方法论上的关联