NeFut Logo NeFut
EN 管理员登录

[AI前沿] 微软推出新工具,助力开发者轻松测试AI行为

发布于:2026-06-05 07:20 最后更新:2026-06-06 13:04
#AI #Machine Learning #Open Source

AI 研究者和实验室在评估 AI 模型方面已取得显著进展,涵盖安全性、合规性、谄媚和一致性等多个方面。然而,企业和开发者面临着一个新的具体需求:确保他们的 AI 系统在特定产品或服务中的行为符合预期。为简化这一测试过程,微软于周二发布了 ASSERT(自适应规范驱动评分评估与回归测试)。该开源框架旨在通过使用 AI 将高层次的自然语言描述转化为详尽的评分测试,从而使特定应用的 AI 行为评估变得简单。ASSERT 接受对 AI 模型预期行为和政策的普通语言描述,将其转化为一组可接受和不可接受的行为,生成问题场景和测试用例,针对目标系统进行测试并评分。它还可以记录 AI 系统的执行路径,包括中间操作和工具调用,以便开发者检查故障发生的位置。开发者也可以提供系统上下文、工具和约束,以进一步定制评估内容。例如,开发者可以指定一个文档研究 AI 代理不应向公司外部人员发送电子邮件,且应将机密信息限制在高管层,并提供考虑上下文的简洁摘要。ASSERT 将使用这些规则生成测试用例,以检查系统是否持续遵循这些规则。根据微软的说法,该框架填补了更广泛的评估无法覆盖的空白,尤其是当 AI 模型的行为受到应用程序或产品的上下文、政策和工具的影响时。微软负责 AI 的首席产品官 Sarah Bird 表示:“我们了解到,评估对于做出良好决策至关重要,因为如果你不理解 AI 系统的行为,实际上很难知道它是否符合你组织的标准……我们发现,如果想要拥有一个值得信赖的系统,就应该评估更多的应用特定维度。”Bird 还表示,ASSERT 可以在系统构建时、部署后,甚至用于持续监控时进行评估。这一发布恰逢 AI 行业逐渐发生更广泛的转变。随着模型能力的增强,研究人员越来越关注可重复的测试和回归检查,斯坦福的 HELM、MLCommons 的 AILuminate 和 METR 等评估组正在推出基准,以衡量模型在不同条件下的表现。

博主点评: 微软的 ASSERT 工具在 AI 行为测试领域的推出,标志着行业对特定应用场景的关注愈发增强。通过将自然语言转化为可执行的测试用例,开发者将能够更高效地确保 AI 系统的可靠性和合规性。这一进展不仅提升了 AI 的安全性,也为未来的持续监控提供了有力支持。

原文链接: https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/

[h] 返回首页