之间网

微软的新安全系统可以捕捉客户人工智能应用程序中的幻觉

科技
导读 微软负责任人工智能首席产品官SarahBird在接受TheVerge采访时表示,她的团队设计了几项新的安全功能,这些功能对于Azure客户来说很容易使用...

微软负责任人工智能首席产品官SarahBird在接受TheVerge采访时表示,她的团队设计了几项新的安全功能,这些功能对于Azure客户来说很容易使用,因为他们不需要雇佣红队人员来测试他们的人工智能服务。建造的。微软表示,这些由法学硕士支持的工具可以检测潜在的漏洞,监控“看似合理但不受支持”的幻觉,并为使用平台上托管的任何模型的AzureAI客户实时阻止恶意提示。

“我们知道客户并不都在提示注入攻击或仇恨内容方面拥有深厚的专业知识,因此评估系统会生成模拟这些类型的攻击所需的提示。然后客户可以获得分数并看到结果,”她说。

这可以帮助避免由于不良或无意识的反应而引起的生成式人工智能争议,例如最近明显伪造名人的争议(微软的设计师图像生成器)、历史上不准确的图像(谷歌双子座)或马里奥驾驶飞机飞往双子塔(必应)。

三个功能:PromptShields,阻止来自外部文档的提示注入或恶意提示,指示模型违背其训练;接地检测,发现并阻止幻觉;评估模型漏洞的安全评估现已在AzureAI上提供预览版。另外两个功能即将推出,用于将模型引导至安全输出以及跟踪提示以标记潜在有问题的用户。

无论用户正在输入提示,还是模型正在处理第三方数据,监控系统都会对其进行评估,看看是否触发了任何禁用词或隐藏了提示,然后决定将其发送给模型进行回答。之后,系统会查看模型的响应,并检查模型是否幻觉了文档或提示中没有的信息。

就GoogleGemini图像而言,为减少偏见而制作的滤镜产生了意想不到的效果,微软表示,其AzureAI工具将在这一领域实现更多定制控制。Bird承认,人们担心微软和其他公司可能会决定什么适合或不适合AI模型,因此她的团队为Azure客户添加了一种方法,可以切换模型看到和阻止的仇恨言论或暴力的过滤。

将来,Azure用户还可以获得尝试触发不安全输出的用户的报告。伯德说,这使得系统管理员能够弄清楚哪些用户是自己的红队成员,哪些可能是有更多恶意的人。

Bird表示,安全功能会立即“附加”到GPT-4和Llama2等其他流行模型上。但是,由于Azure的模型花园包含许多AI模型,因此较小、较少使用的开源系统的用户可能必须手动指向安全功能模型的特征。

微软一直在转向人工智能来增强其软件的安全性,特别是随着越来越多的客户对使用Azure访问人工智能模型感兴趣。该公司还致力于扩大其提供的强大人工智能模型的数量,最近与法国人工智能公司Mistral签署了独家协议,在Azure上提供MistralLarge模型。

标签: