麻省理工学院和其他研究人员开发了一个框架,根据人类或人工智能代理的计算约束条件,对其非理性或次优行为进行建模。他们的技术有助于预测代理的未来行为,例如在国际象棋比赛中。
要建立能与人类有效协作的人工智能系统,首先要有一个良好的人类行为模型。但是,人类在做出决策时往往会有一些次优行为。这种非理性尤其难以建模,通常归结为计算上的限制。人类不可能花几十年的时间去思考一个问题的理想解决方案。
开发新的建模方法
麻省理工学院和华盛顿大学的研究人员开发了一种为代理(无论是人类还是机器)的行为建模的方法,这种方法考虑到了可能妨碍代理解决问题能力的未知计算限制。
他们的模型只需看到代理之前的一些行为痕迹,就能自动推断出代理的计算限制。其结果,即一个代理的所谓"推理预算",可用于预测该代理的未来行为。
实际应用和模型验证
在一篇新论文中,研究人员展示了他们的方法如何用于从先前的路线推断某人的导航目标,以及预测棋手在国际象棋比赛中的后续行动。他们的技术与另一种用于此类决策建模的流行方法不相上下,甚至更胜一筹。
最终,这项工作可以帮助科学家教会人工智能系统人类的行为方式,从而使这些系统能够更好地回应人类合作者。电子工程与计算机科学(EECS)研究生、这一技术相关论文的第一作者阿图尔-保罗-雅各布(Athul Paul Jacob)说,能够理解人类的行为,然后从这种行为推断出他们的目标,会让人工智能助手变得更有用。
"如果我们知道人类即将犯错,看到他们以前的行为方式,人工智能代理可以介入并提供更好的方法。或者,人工智能代理可以适应人类合作者的弱点。"他说:"能够为人类行为建模,是建立一个能够真正帮助人类的人工智能代理的重要一步。"
雅各布与华盛顿大学助理教授阿比舍克-古普塔(Abhishek Gupta)以及资深作者雅各布-安德烈亚斯(Jacob Andreas)共同撰写了这篇论文,雅各布-安德烈亚斯是电子工程科学系副教授和计算机科学与人工智能实验室(CSAIL)成员。这项研究将在学习表征国际会议(International Conference on Learning Representations)上发表。
行为建模
几十年来,研究人员一直在建立人类行为的计算模型。许多先前的方法都试图通过在模型中加入噪音来解释次优决策。模型可能会让代理人在 95% 的情况下做出正确的选择,而不是让代理人总是选择正确的选项。
然而,这些方法可能无法捕捉到这样一个事实,即人类并不总是以同样的方式做出次优行为。麻省理工学院的其他人还研究了在决策不理想的情况下制定计划和推断目标的更有效方法。
为了建立他们的模型,雅各布和他的合作者从之前对国际象棋选手的研究中汲取了灵感。他们注意到,棋手在走简单的棋步时,在行动前花费的思考时间较少,而在具有挑战性的比赛中,实力较强的棋手往往比实力较弱的棋手花费更多的时间进行规划。
雅各布说:"最后,我们发现,规划的深度,或者说一个人思考问题的时间长短,可以很好地代表人类的行为方式。"
他们建立了一个框架,可以从先前的行动中推断出代理的规划深度,并利用该信息来模拟代理的决策过程。方法的第一步是在一定时间内运行算法,以解决所研究的问题。例如,如果研究的是一场国际象棋比赛,他们可能会让下棋算法运行一定步数。最后,研究人员可以看到算法在每一步做出的决定。他们的模型会将这些决策与解决相同问题的代理行为进行比较。它将使代理的决策与算法的决策保持一致,并确定代理停止规划的步骤。
由此,模型可以确定代理的推理预算,或该代理将为这一问题计划多长时间。它可以利用推理预算来预测该代理在解决类似问题时会如何反应。
可解释的解决方案
这种方法非常高效,因为研究人员无需做任何额外工作,就能获取解决问题的算法所做的全部决策。这一框架也可应用于任何可以用某一类算法解决的问题。
"对我来说,最令人震惊的是,这种推理预算是非常可解释的。它是说,更难的问题需要更多的规划,或者说,成为一名强者意味着需要更长时间的规划。"雅各布说:"我们刚开始着手做这件事的时候,并没有想到我们的算法能够自然而然地发现这些行为。"
研究人员在三个不同的建模任务中测试了他们的方法:从先前的路线推断导航目标、从某人的语言暗示猜测其交流意图,以及预测人与人国际象棋比赛中的后续棋步。
在每次实验中,他们的方法要么与流行的替代方法相匹配,要么优于后者。此外,研究人员还发现,他们的人类行为模型与棋手技能(国际象棋比赛)和任务难度的测量结果非常吻合。
展望未来,研究人员希望利用这种方法为其他领域的规划过程建模,例如强化学习(机器人技术中常用的一种试错方法)。从长远来看,他们打算在这项工作的基础上继续努力,以实现开发更有效的人工智能合作者这一更远大的目标。
编译来源:ScitechDaily