由麻省理工学院、哈佛大学和华盛顿大学的研究人员开发的一种新型强化学习方法 HuGE,利用众包反馈来高效地教授人工智能代理复杂的任务,在模拟和实际应用中都显示出良好的效果。
人类引导探索(Human Guided Exploration,HuGE)使人工智能代理能够在人类的帮助下快速学习,即使人类犯了错误。
为了教会人工智能代理一项新任务,例如如何打开厨柜,研究人员通常会使用强化学习(reinforcement learning)--一种试错过程,在这个过程中,如果代理采取的行动使其更接近目标,就会得到奖励。
在许多情况下,人类专家必须精心设计一个奖励函数,这是一种激励机制,可以激发代理进行探索。当代理探索并尝试不同的行动时,人类专家必须反复更新奖励函数。这可能会耗费大量时间,效率低下,而且难以扩大规模,尤其是当任务复杂且涉及许多步骤时更是如此。
麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,它不依赖于专家设计的奖励函数。相反,它利用从许多非专业用户那里收集到的众包反馈,来指导代理学习如何达到目标。
虽然其他一些方法也试图利用非专家反馈,但这种新方法能让人工智能代理学习得更快,尽管从用户那里收集的数据往往充满错误。这些嘈杂的数据可能会导致其他方法失败。
此外,这种新方法允许异步收集反馈,因此世界各地的非专业用户都能为人工智能代理的教学做出贡献。
"HuGE": 新颖的方法
"如今,设计机器人代理最耗时、最具挑战性的部分之一就是设计奖励功能。如今,奖励函数是由专家研究人员设计的--如果我们想教机器人完成许多不同的任务,这种模式是无法扩展的。"麻省理工学院电子工程与计算机科学系(EECS)助理教授、麻省理工学院计算机科学与人工智能实验室(CSAIL)Improbable AI实验室负责人普尔基特-阿格拉瓦(Pulkit Agrawal)说:"我们的工作提出了一种通过众包奖励函数设计和让非专家提供有用反馈来扩展机器人学习的方法。"
未来,这种方法可以帮助机器人快速学会在用户家中执行特定任务,而主人无需向机器人展示每项任务的物理示例。机器人可以在非专业人员的众包反馈指导下自行探索。
"在我们的方法中,奖励功能引导代理探索什么,而不是告诉它应该做什么才能完成任务。因此,即使人类的监督有些不准确和嘈杂,代理仍然能够进行探索,这有助于它更好地学习,"第一作者、Improbable AI 实验室研究助理马塞尔-托尔内(Marcel Torne '23)解释说。
与托尔内共同完成该论文的还有他的麻省理工学院导师阿格拉沃尔、资深作者、华盛顿大学助理教授阿比舍克-古普塔(Abhishek Gupta)以及华盛顿大学和麻省理工学院的其他研究人员。这项研究将在下个月举行的神经信息处理系统会议上发表。
反馈机制和学习过程
为强化学习收集用户反馈的一种方法是,向用户展示两张代理达到的状态照片,然后询问用户哪种状态更接近目标。例如,机器人的目标可能是打开一个厨房橱柜。其中一张照片可能显示机器人打开了橱柜,而第二张照片可能显示机器人打开了微波炉。用户会选择"更好"状态的照片。
以前的一些方法试图利用这种众包的二元反馈来优化奖励函数,让机器人利用奖励函数来学习任务。然而,由于非专家很可能会犯错误,奖励函数可能会变得非常嘈杂,因此代理可能会陷入困境,永远无法达到目标。
"基本上,代理会把奖励函数看得太重。它会试图完美地匹配奖励函数。因此,我们不直接对奖励函数进行优化,而是用它来告诉机器人应该探索哪些区域,"托恩说。
他和他的合作者将这一过程分解成两个独立的部分,每个部分都由各自的算法指导。他们将新的强化学习方法称为 HuGE(人类引导探索)。
一方面,目标选择器算法会根据众包的人类反馈不断更新。这些反馈不是作为奖励函数,而是用来指导代理的探索。从某种意义上说,非专业用户投放的面包屑会逐步引导代理朝着目标前进。
另一方面,代理在目标选择器的指导下,以自我监督的方式进行探索。它收集自己尝试过的动作的图像或视频,然后发送给人类,用于更新目标选择器。
这就缩小了代理的探索范围,将其引向更有希望、更接近目标的区域。但是,如果没有反馈,或者反馈需要一段时间才能到达,那么代理就会继续自学,尽管速度会慢一些。这样,就可以不频繁地、异步地收集反馈信息。
"探索环路可以自主地继续前进,因为它只是去探索和学习新的东西。当你获得更好的信号时,它就会以更具体的方式进行探索,然后就可以让它们按照自己的节奏转动。"
由于反馈只是温和地引导代理的行为,即使用户提供了错误的答案,它最终也能学会完成任务。
更快的学习
研究人员在一些模拟任务和实际任务中测试了这种方法。在模拟任务中,他们使用 HuGE 有效地学习了具有较长操作序列的任务,例如按照特定顺序堆叠积木或在大型迷宫中导航。
在真实世界的测试中,他们利用HuGE训练机械臂绘制字母"U",以及取放物品。在这些测试中,他们从横跨三大洲 13 个不同国家的 109 位非专家用户那里获得了众包数据。
在实际测试中,研究人员利用 HuGE 训练机械臂拾取和放置物体以及画出字母"U"。他们从横跨三大洲 13 个不同国家的 109 位非专家用户那里获得了众包数据。图片来源:研究人员提供
在真实世界和模拟实验中,HuGE 比其他方法更快地帮助机器人学会实现目标。
研究人员还发现,与研究人员制作和标注的合成数据相比,从非专家那里众包的数据性能更好。对于非专业用户来说,标注 30 张图片或视频所需的时间不到两分钟。
托尔内补充说:"这使得我们很有希望扩大这种方法的应用范围。"
在最近举行的机器人学习大会上,研究人员发表了一篇相关论文,他们对 HuGE 进行了改进,使人工智能代理能够学会执行任务,然后自主重置环境继续学习。例如,如果代理学会了打开橱柜,该方法也会引导代理关闭橱柜。
他说:"现在,我们可以让它完全自主地学习,而不需要人工重置。"研究人员还强调,在这种学习方法和其他学习方法中,确保人工智能代理与人类价值观保持一致至关重要。
未来,他们希望继续改进 HuGE,使人工智能代理能够从其他形式的交流中学习,如自然语言和与机器人的身体互动。他们还有兴趣将这种方法用于同时教授多个代理。