能力选择性释放
能力选择性释放(Capability Selective Release)是一种全新的AI安全范式,指在模型训练阶段就主动调控其特定能力(如网络安全攻击能力),而非在模型发布后通过外部过滤器限制危险用途。
核心特征
- 训练阶段干预: 在模型训练过程中主动削弱或增强特定能力,而非依赖发布后的外部安全过滤器
- 差异化调控: 对不同能力进行差异化处理,保留商业价值的同时管控潜在风险
- 安全经验积累: 通过有限能力版本的模型在真实世界部署中积累安全经验,为更强大模型的发布铺路
行业先例
[[anthropic]]在[[claude-opus-4-7]]中首次实践了这一策略。Anthropic在训练过程中实验性地削弱了模型的网络安全攻击能力,并内置了自动化网络安全防护栏。这一做法被视为未来大模型发布的潜在行业标准。
战略意义
能力选择性释放策略的核心目标是解决AI双重用途(dual-use)困境——在释放商业价值的同时,主动管控潜在的攻击性用途。它为[[claude-mythos]]等更强大模型的最终公开发布提供了安全经验积累的路径。