能力选择性释放

能力选择性释放

能力选择性释放（Capability Selective Release）是一种全新的AI安全范式，指在模型训练阶段就主动调控其特定能力（如网络安全攻击能力），而非在模型发布后通过外部过滤器限制危险用途。

核心特征

训练阶段干预: 在模型训练过程中主动削弱或增强特定能力，而非依赖发布后的外部安全过滤器
差异化调控: 对不同能力进行差异化处理，保留商业价值的同时管控潜在风险
安全经验积累: 通过有限能力版本的模型在真实世界部署中积累安全经验，为更强大模型的发布铺路

行业先例

[[anthropic]]在[[claude-opus-4-7]]中首次实践了这一策略。Anthropic在训练过程中实验性地削弱了模型的网络安全攻击能力，并内置了自动化网络安全防护栏。这一做法被视为未来大模型发布的潜在行业标准。

战略意义

能力选择性释放策略的核心目标是解决AI双重用途（dual-use）困境——在释放商业价值的同时，主动管控潜在的攻击性用途。它为[[claude-mythos]]等更强大模型的最终公开发布提供了安全经验积累的路径。