返回上一页  首页 | cnbeta报时: 15:58:11
理解的假象:MIT研究人员揭示人工智能形式化规范的必要性
发布日期:2023-11-12 11:37:03  稿源:cnBeta.COM

麻省理工学院林肯实验室(MIT Lincoln Laboratory)的一项研究表明,尽管形式规范具有数学上的精确性,但人类并不一定能对其进行解释。参与者在使用这些规范验证人工智能行为时遇到了困难,这表明理论主张与实际理解之间存在差异。研究结果凸显了对人工智能可解释性进行更现实评估的必要性。

一些研究人员认为,正式规范是自主系统向人类"解释自己"的一种方式。但一项新的研究发现,我们并不理解。

随着自主系统和人工智能在日常生活中越来越常见,新的方法正在出现,以帮助人类检查这些系统的行为是否符合预期。其中一种方法被称为"形式化规范",它使用的数学公式可以转化为自然语言表达。一些研究人员声称,这种方法可用于以人类可解释的方式阐明人工智能将做出的决定。

麻省理工学院林肯实验室的研究人员希望验证这种可解释性的说法。他们的研究结果恰恰相反: 形式化规范似乎无法被人类解读。在该团队的研究中,参与者被要求检查人工智能代理的计划是否能在虚拟游戏中取得成功。当参与者看到计划的正式说明时,正确率不到一半。

Humans-Struggle-To-Understand-Outputs-of-Formal-Specifications.webp

一项研究发现,人类很难理解形式化规范的输出,而一些研究人员声称,这种方法可以用来让人类解释人工智能决策。图片来源:Bryan Mastergeorge

"对于那些一直声称形式化方法可以为系统提供可解释性的研究人员来说,这一结果是个坏消息。"实验室人工智能技术小组的研究员萧浩生(Hosea Siu)说:"在某种有限和抽象的意义上,这可能是正确的,但对于任何接近实际的系统验证来说都不是。"该小组的论文已被本月初举行的 2023 年国际智能机器人与系统大会录用。

可解释性的重要性

可解释性之所以重要,是因为它能让人类在现实世界中使用机器时对其产生信任。如果机器人或人工智能能够解释自己的行为,那么人类就可以决定是否需要对其进行调整,或者是否可以相信它能做出公平的决定。一个可解释的系统还能让技术用户--而不仅仅是开发者--理解并信任其能力。然而,长期以来,可解释性一直是人工智能和自主领域的一个难题。机器学习过程是在一个"黑盒子"中进行的,因此模型开发人员往往无法解释系统为何或如何做出某个决定。

"当研究人员说'我们的机器学习系统很准确'时,我们会问'有多准确'和'使用了哪些数据',如果没有提供这些信息,我们就会拒绝这种说法。当研究人员说'我们的机器学习系统是可解释的'时,我们并没有这么做,我们需要开始对这些说法进行更严格的审查,"Siu 说。

翻译规范的挑战

在实验中,研究人员试图确定正式的规范是否能使系统的行为更具可解释性。他们关注的重点是人们使用这些规范验证系统的能力,即了解系统是否总能满足用户的目标。

将形式化规范用于这一目的,本质上是其最初用途的副产品。形式化规范是一系列更广泛的形式化方法的一部分,这些方法使用逻辑表达式作为数学框架来描述模型的行为。由于模型是建立在逻辑流程基础上的,工程师可以使用"模型检查器"对系统的事实进行数学证明,包括系统何时可能完成任务,何时不可能完成任务。现在,研究人员正试图将同样的框架用作人类的转化工具。

"研究人员混淆了这样一个事实:形式化规范具有精确的语义,而人类可以对其进行解释。这不是一回事,"Siu 说。"我们意识到,几乎没有人检查人们是否真正理解了输出结果。"

在该团队的实验中,参与者被要求用一个玩夺旗游戏的机器人验证一组相当简单的行为,基本上是回答"如果机器人完全遵循这些规则,它是否总是赢?"

参与者中既有形式化方法专家,也有非专家。他们通过三种方式获得了形式规范--"原始"逻辑公式、翻译成更接近自然语言的公式以及决策树格式。在人工智能领域,决策树通常被认为是展示人工智能或机器人决策的一种人类可理解的方式。

结果是整体而言,验证表现相当糟糕,无论采用哪种表现形式,准确率都在45%左右。

过度自信和误解

以前接受过正规规范培训的人的表现只比新手稍好一些。但是,专家们对自己的答案更有信心,无论正确与否。总的来说,人们倾向于过度相信摆在他们面前的规范的正确性,这意味着他们忽略了允许游戏失败的规则集。研究人员说,这种确认偏差对于系统验证尤为重要,因为人们更容易忽视故障模式。

"我们并不认为这一结果意味着我们应该放弃用正式规范来向人们解释系统行为。但我们确实认为,在设计如何向人们展示这些规范以及人们使用这些规范的工作流程方面,还需要做更多的工作,"Siu 补充说。

在考虑为什么实验结果如此糟糕时,Siu 意识到,即使是使用正式方法的人也没有受过训练,无法按照实验的要求检查规范。而且,思考一套规则可能产生的所有结果也很困难。即便如此,向参与者展示的规则集还是很短,只相当于一段文字,"比你在任何真实系统中遇到的规则都要短得多,"Siu 说。

该团队并不打算将他们的研究结果直接与人类在真实机器人验证中的表现联系起来。相反,他们的目标是以这些结果为起点,考虑形式逻辑界在宣称可解释性时可能会遗漏什么,以及这种宣称在现实世界中会如何体现。

未来影响与研究

这项研究是 Siu 和队友们正在进行的一个更大项目的一部分,该项目旨在改善机器人与人类操作员(尤其是军事操作员)之间的关系。机器人编程过程往往会将操作人员排除在外。本着提高可解释性和信任度的类似目标,该项目正试图让操作员以类似于训练人类的方式直接向机器人教授任务。这一过程既能增强操作员对机器人的信心,也能提高机器人的适应能力。

最终,他们希望这项研究的结果和他们正在进行的研究能够更好地应用自主性,因为自主性会越来越深入人类的生活和决策。

Siu补充说:"我们的研究结果表明,在过多地宣称自主性和人工智能对人类的实用性之前,有必要对某些系统和概念进行人类评估。"

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 15:58:11

文字版  标准版  电脑端

© 2003-2025