每周文章分享-99
2023-3-18 06:3:26 Author: 网络与安全实验室(查看原文) 阅读量:11 收藏

每周文章分享

2023.03.13-2023.03.19

标题: Hierarchical and Stable Multiagent Reinforcement Learning for Cooperative Navigation Control

期刊: IEEE Transactions on Neural Networks and Learning Systems, vol. 34, no. 1, pp. 90-103, Jan. 2023.

作者: Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang

分享人: 河海大学——赖威哲

背景介绍

求解多智能体向多个未分配的目标的导航(MNUM)问题的传统规划方法主要包括集中式规划和分布式规划。在实际应用中,实时运行集中式规划算法太耗时,尤其是当智能体数量很多时。基于分布式规划的方法计算效率更高,但由于缺乏全局的目标分配和路径规划,它们通常缺乏最优性,此外,它们不适用于通信受限的情况。新兴的基于多智能体强化学习的方法具有很大潜力,但它面临着一些关键挑战,包括较大的策略解空间和非静止环境。对于较大的策略解空间,现有的解决方法不适用于策略间复杂依赖的任务和智能体间密切协作的任务;对于非静止环境,现有方法可能导致较高的计算成本和较低的鲁棒性。

关键技术

在本文中,提出了一种分层的、稳定的多智能体强化学习(HIST-MADRL)框架。具体来说,针对较大的策略解空间,提出了学习分层导航策略,其中高层策略动态选择目标,低层策略决定转向方向。这样,每个智能体只能在指向其选定目标的方向范围内移动,从而大大减小策略解空间。针对非静止环境,提出了一种稳定的多智能体强化学习方法。具体来说,每个智能体都考虑对其他智能体行为的估计来评估自身策略,这减轻了由其他智能体策略的未知变化引起的非静止性。为了用动作估计来指导策略学习,本文将传统的动作值函数扩展为一个复合函数,它包含了估计函数,并推导出不包含非静止分量的Bellman方程。本文提出了两种稳定的学习算法:稳定的多智能体深度Q学习(SMADQN)和稳定的多智能体深度确定性策略梯度(SMADDPG)算法,分别用于学习高层和低层策略。

算法介绍

1. 分层策略模型

一个复杂的MNUM问题可以分成两层问题,第一层是动态目标选择问题,第二层是碰撞避免问题。基于这一思想,本文将每个智能体的策略建模为一个分层策略,由一个用于动态目标选择的高层策略和一个用于避免碰撞的低层策略组成。根据该策略,设计了如图1(a)所示的分层控制方案。在每个时间步,每个智能体首先根据其对全局状态的观测选择一个目标,然后将其视野中心旋转到所选目标并观测局部状态。如果在感知范围内没有观测到障碍物,智能体将直接向目标移动。否则,激活低层策略输出一个角度,智能体将转向这个角度并向前移动。

图1 (a)分层控制方案(b)当智能体遵循分层策略时的运动范围(c)当智能体遵循单一策略时的运动范围

基于分层策略模型,每个智能体只在指向其选定目标的方向范围内移动。此外,如图1(b)所示,当在所选目标的方向上没有观测到障碍物时,智能体将不会向除了朝向目标的方向之外的其他方向移动。因此,智能体的轨迹都将接近目标,并且智能体不会尝试生成偏离目标方向的轨迹的策略。也就是说,减少了策略解空间。

2. 稳定的多智能体强化学习

本文定义了一个扩展的Q函数,当当前状态为s,其他智能体进行动作a_-i,智能体A_i进行动作a_i,然后遵循策略π_i时,该函数测量A_i的预期总奖励。然后,可以为A_i的策略的最优扩展Q函数导出一个Bellman最优方程

因为智能体独立决策而不共享决策,所以其他智能体的行动是未知的。本文通过使用一个辅助变量来代替其他智能体的真实动作以解决这个问题。一般来说,其他智能体在两个相邻时间步的状态可以在一定程度上透露它们的动作。因此,将辅助变量定义为

其中s_-i^t表示与除A_i之外的智能体相关的部分全局状态,f是要学习的函数,以使用其他智能体进行动作之前和之后的状态来估计他们的动作。此外,由于状态转换的不确定性,辅助变量可以用其期望值来估计:

基于辅助变量和估计的辅助变量,可以导出对应于智能体最优策略的最优扩展Q函数的近似Bellman最优方程。具体来说,首先在Bellman最优方程的左边用估计的辅助变量替换a_-i^t,然后在方程右边用辅助变量替换a_-i^t+1,从而得到最优扩展Q函数的近似值:

假设状态、动作和f函数变化不大,且最优扩展Q函数是局部线性的,因此f上的期望算子可以移到Q函数外,从而将上式转化为

其中不包括非静止成分,因此可以在静止环境中学习基于上式的扩展Q函数。要学习的扩展Q函数是包含函数f的复合函数,因此将G函数定义为

相应地,G函数的近似Bellman最优方程为

神经网络G_i可以通过最小化TD方差来学习近似G函数。损失函数为

类似地,近似的Bellman期望方程可以推导为

为了用神经网络G_i来近似G_i^π,损失函数为

基于上述G函数学习方法,本文设计了SMADQN和SMADDPG算法。

3. HIST-MADRL的交错学习框架

图2 HIST-MADRL算法框架

HIST-MADRL框架如图2所示。具体而言,由于高层策略生成用于目标选择的动作,其动作空间是离散的。在SMADQN的基础上,本文定义了一个扩展的Q函数作为该策略的G^ts。目标选择动作由下式生成:

 

低层策略决定转向方向,其动作空间是连续的。在SMADDPG的基础上,本文定义了一个扩展的Q函数G^ca作为评论家,定义μ作为演员。转向动作由下式生成:

 

因为这两种策略交替执行,所以修改G函数的贝尔曼方程,然后导出损失函数以学习这两种策略的G函数。在目标选择之后,得到局部状态(周围的探测结果)。根据在目标方向上是否检测到障碍物,智能体将直行或不直行,然后进行下一步的高层决策或本步的低层决策。

具体来说,如果在选定的目标方向上没有观测到障碍物,则G^ts满足

如果在所选目标的方向上观察到障碍物,则G^ts满足

对于G^ca,由于避碰动作之后是目标选择动作,其Bellman最优方程可推导为

此外,如果在下一个时间步观测到障碍物,可以将等式右侧的最大G^ts替换为G^ca的期望值。这样,可以避免从G^ts到G^ca的估计偏差传播。具体地说,上式被转换为

因此,可以通过最小化下式中的损失函数来学习G^ca:

在学习过程中,采用经验回放来提高样本效率。

实验结果

在本文的实验中,在无障碍物环境中使用SMADQN对目标选择策略进行了预训练。在这个过程中,对SMADQN的性能进行了评估。然后,将预训练好的目标选择策略作为热启动,在未知且随机放置障碍物的环境中,利用HIST-MADRL对分层策略进行训练。

1. SMADQN的性能

本文应用SMADQN在无障碍物环境中用N个智能体(N=2、3、4、5、6)预训练高层策略。在这个阶段,智能体只学习协同地选择目标,以便在最短的时间内从任何起点到达所有目标。在此训练阶段,不考虑智能体之间的冲突。将本文的方法与Ind-DQN和基于指纹的方法对比。平均奖励的收敛曲线在图3的左栏中示出。可以看到,当不同数量的智能体参与任务时,本文的方法收敛到相似的平均奖励。随着智能体数量的增加,收敛速度变慢,平均奖励降低。收敛速度的下降是由于状态空间和动作空间的增大。此外,当更多的智能体参与任务时,智能体需要更多的时间相互协调,任务成功率下降,从而导致平均奖励下降。相比之下,随着智能体数量的增加,Ind-DQN的性能急剧下降。当N>4时,与本文的方法相比,Ind-DQN算法得到的平均奖励更少,收敛曲线的方差也更大。当N≤4时,Ind-DQN最终可以取得和本文方法差不多的奖励。但是,它的收敛速度慢得多。与基于指纹的方法相比,本文的方法仍然具有更快的收敛速度和更高的奖励。

图3 不同方法得到的平均奖励收敛曲线和归一化平均最大导航时间成本收敛曲线

归一化平均最大导航时间的收敛曲线在图3的右栏中示出。最大导航时间是指最后一个到达目标的智能体所花费的时间。与Ind-DQN和基于指纹的方法相比,本文的方法的平均最大导航时间随着学习的进行而迅速减少。特别是,Ind-DQN很难在超过四个智能体的训练集中取得成功。

除了收敛性能之外,本文还评估了训练后策略的性能。给定智能体的数量(N=2、3、4、5、6),生成1000个具有随机目标位置和随机起点的任务来测试该策略。从表I中的结果可以看出,本文的方法的成功率在所有情况下都超过90%,当N≤5时超过95%。相比之下,Ind-DQN和基于指纹的方法仅在N≤4时生成较好的策略。具体来说,当N≤4时,Ind-DQN算法表现相对较好,但与本文的方法相比,其成功率较低,平均最大导航时间较长。当N>4时,其成功率下降到5%以下。当N≤4时,基于指纹的方法产生与本文方法一样好的策略,但是当N>4时,它的成功率急剧下降。从结果可以看出,与Ind-DQN算法相比,本文的方法在成功率上最多提高了88.6%,在平均最大导航时间上减少了4.9%。与基于指纹的方法相比,本文的方法在成功率上最多提高了72.9%,在平均最大导航时间上减少了2%。

表I SMADQN、IND-DQN和基于指纹的方法学习的策略的测试结果

2. 奖励的影响

本文研究了不同奖励设置对策略学习的影响。具体来说,以两种方式修改奖励函数。在第一个修改的奖励设置中,将奖励函数中使用的转换奖励替换为较为稀疏的奖励,设置为

在第二个修改的奖励设置中,将智能体选择不同目标时获得的转换奖励设置为C_2=50/L。

在预训练环境中用这两种奖励设置来训练高层策略,训练后用1000个随机生成的任务测试了这两个学习到的策略。结果列于表II。可以看到,与本文的方法相比,随着智能体数量的增加,用更大的转换奖励学习到的策略的成功率下降了很多。此外,更大的转换奖励的平均最大导航时间比本文方法的长。这一结果表明,在更大的转换奖励的引导下,智能体学会频繁地改变目标以获得更多的奖励,这花费了更多的时间。对于稀疏的转换奖励,它仅在N=2时表现良好。当N=3时,其成功率急剧下降。当N≥4时,一次也不能成功。结果证明稀疏转换奖励不能为策略学习提供有效的指导,尤其是当智能体数量增加且任务变得更加困难时。

表II 用不同奖励学习的策略的测试结果

3. HIST-MADRL性能

本文应用HIST-MADRL来学习有障碍物环境中的MNUM策略,为了说明HIST-MADRL相对于单策略学习方法的优越性,将其与三种单策略学习方法进行了比较,在这三种单策略学习方法中,策略只决定一个转向角,而不是选择一个目标然后决定转向。第一种是Ind-DDPG,第二种是SMADDPG,第三种是MAAC。此外,为了研究HIST-MADRL在优化策略的两层中的有效性,将它与半训练的分层策略学习方法进行比较,其只学习低层策略。具体地,高层策略采用集中式目标分配策略,每个智能体随机分配一个目标,并且在导航过程中不重新分配目标。低层策略通过DDPG学习以避免碰撞,并且不区分在目标的方向上是否观测到障碍物,将这种方法命名为低层DDPG。

图4示出了在具有三个目标的任务中通过不同方法获得的奖励的收敛曲线。可以看到,在对高层策略进行短时间的预训练后,HIST-MADRL在1000个训练集后收敛。特别是,由于HIST-MADRL训练阶段中避免碰撞所引起的对于碰撞和时间成本的惩罚,在预训练阶段之后,奖励下降。相比之下,低层DDPG在2000个训练集后几乎收敛,这比HIST-MADRL慢,但类似于HIST-MADRL加上预训练阶段。此外,它比HIST-MADRL获得更少的奖励,这表明HIST-MADRL在学习策略的两层上都是有效的。对于三种单策略学习方法,它们都得到了相当低的奖励。具体来说,Ind-DDPG的性能最差,其无效性源于非静止的环境和巨大的策略解空间。相比之下,SMADDPG优于Ind-DDPG,这验证了本文的稳定DRL方法的有效性。然而,SMADDPG的收敛速度远低于两种分层策略学习方法,这表明了本文的分层策略模型在加速学习方面的有效性。MAAC也没有学到一个好的策略。这是因为MAAC没有处理较大的策略解空间造成的困难。虽然智能体共享关于他们的观测和动作的信息,但是MAAC中的策略解空间并没有减少,这阻碍了有效的学习。

图4 有障碍物环境中不同方法的收敛曲线

为了评估本文的方法的策略性能,使用随机生成的任务来测试学习到的策略。给定智能体数量(N=2、3、4、5、6),生成1000个测试任务。成功率和归一化平均最大时间在表III中列出。当N<6时,本文的方法获得了超过90%的高成功率。作为比较,以同样的方式测试低层DDPG,因为它的性能与本文方法相当,如图4所示。从表IV中的结果可以看出,HIST-MADRL能够将成功率提高10.4%,将平均最大时间减少21.6%。

表III HIST-MADRL和底层DDPG学习的策略的结果

为了研究所学习策略的导航行为,选择了具有三个目标和三个智能体的三个典型任务来演示智能体的导航轨迹。结果如图5所示。作为比较,低层DDPG的结果显示在右栏中。从第一个任务中的轨迹可以看出,经过HIST-MADRL训练的智能体可以在整个导航过程中选择不同的目标。此外,低层DDPG产生的弯曲轨迹相比,HIST-MADRL可以在前方没有障碍的情况下直接奔向目标。这是因为本文的方法在转向前使用高层策略来选择目标,并结合了没有障碍物时前进的经验知识。在第二个任务中,可以看到本文的方法可以成功地避开导航过程中的障碍物。此外,与低层DDPG中随机分配目标的结果相比,在本文的方法中,A_2没有选择与其最接近的浅蓝色目标,而是将其留给A_1。最长的轨迹长度反映了最大的导航时间。比较两种方法的最长轨迹,可以发现,本文的方法使智能体能够协同地选择目标,从而可以用更少的时间完成任务。这种协同能力在最后一项任务中凸显出来。在这个任务中,开始时最接近三个智能体的目标都是粉红色的。在最初的几个时间步骤中,A_2和A_3都朝向粉色目标。当它们向前移动并避开路上的障碍物时,它们的目标选择会动态地、协同地改变。最后,所有智能体成功到达不同的目标。根据最长轨迹长度,可以看到本文的方法比低层DDPG花费更少的时间。

图5 HIST-MADRL和低层DDPG生成的导航轨迹

总结

本文解决了一个协同导航控制问题——MNUM,其中多智能体需要在包含各种未知障碍物的环境中导航到未分配的多个目标。本文将MNUM建模为一个随机博弈,并基于其目标函数设计了一个奖励函数。提出了一种分层的、稳定的MADRL方法来解决该问题,以交错的方式学习用于目标选择的高层策略和用于避免碰撞的低层策略。该方法基于分层策略模型,减少了策略解空间,加快了学习过程。为了稳定学习,引入了一个包含其他智能体动作信息的辅助变量作为策略学习的指导。

-END-

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247496022&idx=1&sn=f8b3f1edaf86c4cdc59400998363fd83&chksm=e9f13155de86b843fdb81f657d4631a2c784c6e2d2787d12537d05952e1c34c50c7d4ea8f325#rd
如有侵权请联系:admin#unsafe.sh