之间网

科学家提出融合习惯性行为和目标导向行为的人工智能方法

生活
导读 无论是生物还是人工智能驱动的机器,都需要根据情况做出快速且自适应的响应。在心理学和神经科学中,行为可分为两种类型:习惯性行为(快速...

无论是生物还是人工智能驱动的机器,都需要根据情况做出快速且自适应的响应。在心理学和神经科学中,行为可分为两种类型:习惯性行为(快速、简单但不灵活)和目标导向行为(灵活但复杂且较慢)。

诺贝尔经济学奖得主丹尼尔·卡尼曼将它们区分为系统 1 和系统 2。然而,对于它们是独立且冲突的实体还是相互支持的组成部分,一直存在争议。

冲绳科学技术大学 (OIST) 和上海微软亚洲研究院的科学家提出了一种新的人工智能方法,其中习惯性行为和目标导向行为系统学习互相帮助。

该方法通过计算机模拟迷宫的探索,可以快速适应变化的环境,并重现人类和动物长期适应某一环境后的行为。

这项发表在《自然通讯》上的研究不仅为在新兴的人工智能领域开发快速可靠地适应的系统铺平了道路,而且还为我们在神经科学和心理学领域如何做出决策提供了线索。

科学家们基于“主动推理”理论,推导出一个模型,该模型将习惯性和目标导向系统结合起来,用于执行强化学习的人工智能代理的学习行为,强化学习是一种基于奖励和惩罚的学习方法,该理论最近备受关注。

在论文中,他们创建了一个计算机模拟程序,模拟了一项任务:老鼠根据视觉线索探索迷宫,当到达目标时就会得到食物奖励。

他们研究了这两个系统在与环境交互时如何适应和整合,表明它们可以快速实现自适应行为。观察到AI代理通过强化学习收集数据并改进自身行为。

我们的大脑喜欢什么

结束一天的漫长工作后,我们通常会习惯性地开车回家。但是,如果你刚刚搬家,没有注意,你可能会发现自己习惯性地开车回到原来的住处。

当你发现自己这样做时,你会换个方式(目标导向行为)并重新规划路线前往新家。传统上,这两种行为被认为是独立起作用的,导致行为要么是习惯性的、快速的,但缺乏灵活性,要么是目标导向的、灵活的,但缓慢的。

“学习过程中从目标导向到习惯行为的自动转变是心理学中一个非常著名的发现。我们的模型和模拟可以解释为什么会发生这种情况:大脑会偏爱确定性更高的行为。随着学习的进展,习惯行为的随机性降低,从而增加了确定性。因此,大脑在经过大量训练后更倾向于依赖习惯行为,”OIST 认知神经机器人研究部门的前博士生、论文第一作者 Dongqi Han 博士解释道。

对于AI未曾训练过的新目标,它会利用环境的内部模型来规划自己的行动,不需要考虑所有可能的动作,而是结合自己的习惯行为,这样规划起来会更加高效。

这对传统的人工智能方法提出了挑战,因为传统的人工智能方法要求在训练中明确包含所有可能的目标才能实现这些目标。在这个模型中,每个期望的目标都可以在没有明确训练的情况下实现,而是通过灵活地结合学习到的知识来实现​​。

“在灵活行为和习惯行为之间实现某种平衡或权衡非常重要,”认知神经机器人研究部门负责人 Jun Tani 教授表示。“实现目标的方法有很多,但考虑所有可能的行动成本非常高,因此目标导向行为受到习惯行为的限制,以缩小选择范围。”

标签: