微软的研究人员正在给AI程序提供焦虑的粗略模拟,当计算机学习驾驶虚拟世界时,它会使用这些“恐惧”信号作为指导:如果一个人会感到害怕,计算机也可能会冥想“我做错了”,从而提升驾驶的安全性。
近年来,由于人工智能的迅猛发展,使得自动驾驶汽车在城市道路上奔驰的场景不再是一个遥不可及的概念。
但是,尽管人工智能目前取得了长足的进步,但有一件事是人类应该清楚的认识,那就是人工智能天生不具备人类所拥有的恐惧感。
由恐惧驱动的生理反应帮助人类做出关键决定,保持警觉,尤其是在开车这样的情况下。
在一项新的研究中,微软的研究人员提高自动驾驶汽车的决策技能借鉴了这一理念,努力研发学习更快,出错更少的“具有直觉的机器”。
该团队在2019年学习表征国际会议(ICLR)上发表的一篇论文中详细阐述了他们的发现。
为了教会人工智能“感知”恐惧,研究人员在驾驶模拟器中使用脉冲传感器来跟踪人们的觉醒。
然后,这些信号被输入到算法中,以了解是什么情况导致一个人的脉搏达到峰值。
作者Daniel McDuff和Ashish Kapoor在论文的摘要中解释道:“随着人们学会驾驭世界,自主神经系统(例如,“战斗或逃跑”)反应提供了关于行动选择的潜在后果的内在反馈(例如,当靠近悬崖边缘或在弯道周围快速行驶时变得紧张。)”
生理变化与这些生物制剂有关,它们可以保护一个人免受危险。”
研究人员表示,教授算法当一个人在特定情况下可能感到更焦虑时的感受,可以作为帮助机器规避风险的指南。
研究小组解释说:“我们的假设是,在强化学习环境中,这样的奖励函数可以规避与稀疏和倾斜奖励相关的挑战,并有助于提高样本效率。”
研究人员让自主软件通过一个到处都是墙壁和坡道的模拟迷宫,观察它们在恐惧中表现如何。
而且,与只基于临壁训练的人工智能相比,学会恐惧的系统崩溃的可能性要小得多。
研究人员写道:“与交感神经系统反应相关的信号训练奖励机制的一个主要好处是,奖励是非稀疏的——负面奖励在车祸发生前就开始出现了。”
“这将提高培训的效率,如果设计得当,还能制定出与目标一致的政策。”
但是还有一些值得警醒的地方。
研究人员指出:“虽然情绪对决策很重要,但在某些情况下,它们也会对决策产生不利影响。”
“之后的研究将考虑如何平衡内在奖励和外在奖励,包括对包含多种内在驱动力(如饥饿、恐惧和痛苦)的表现形式的扩展。”