[AI前沿] 安全专家对Anthropic Fable的限制感到不满，影响AI安全性

Anthropic于周二发布了其最新模型Fable，宣称这是其强大且备受关注的网络安全模型Mythos的公共和有限版本。然而，并非所有人都对这些限制感到满意，许多网络安全研究人员和专业人士在网上表达了不满。著名安全研究员Valentina “Chompie” Palmiotti表示：“[Fable]拒绝任何可能与网络安全相关的请求，甚至是阅读一篇博客文章这样的无害任务。”当一个提示触发其防护措施时，Fable会暂停聊天并表示其“安全措施标记了该消息为网络安全或生物学主题”。这些防护措施的设立旨在限制Fable被用于开发恶意软件或危害软件的风险，这是Anthropic长期以来的关切。生物学方面的限制源于对生物武器开发的类似担忧。Anthropic在四月份发布Mythos时，将该模型限制在少数公司和组织中，称之为Project Glasswing，旨在将模型用于保护关键软件和基础设施。上周，Anthropic将Mythos的访问权限扩展到15个国家的数百个组织。尽管出发点良好，许多网络安全专家仍然对这些限制的随意性感到沮丧。网络安全老将Matt Suiche告诉TechCrunch：“如果你要求它编写安全代码，它会认为这是与网络安全相关的工作，而不是软件工程最佳实践，结果会被降级。”Fable在遇到防护措施时会回退到Claude Opus 4.8。“这似乎是基于关键词的，因此任何与‘网络安全’相关的词汇都会触发防护措施。”另一位研究者在X上抱怨说：“即使是请求代码审查也会触发Fable的防护措施。”除了模型内部的防护措施，Anthropic还要求网络安全专业人士申请网络验证程序。如果获得批准，申请人对使用Claude进行网络安全工作的限制将减少。OpenAI也有类似的程序，称为网络安全的可信访问。

博主点评： Anthropic在推出Fable时的严格防护措施引发了广泛争议，显示出AI安全与可用性之间的微妙平衡。虽然设立防护措施是为了防止滥用，但过度的限制可能会削弱AI的实用性。随着技术的演进，期待Anthropic能逐步优化这些限制，促进AI在网络安全领域的健康发展。