每周文章分享-133
2023-11-11 08:20:21 Author: 网络与安全实验室(查看原文) 阅读量:2 收藏

2023.11.06-2023.11.12

每周文章分享

标题: Efficient Data Collection Scheme for Multi-Modal Underwater Sensor Networks Based on Deep Reinforcement Learning 

期刊: IEEE Transactions on Vehicular Technology, vol. 72, no. 5, pp. 6558-6570, May 2023.

作者: Shanshan Song, Jun Liu, Jiani Guo, Bin Lin, Qiang Ye, and Junhong Cui.

分享人: 河海大学——李俊俪

研究背景

水下传感器网络(USNs)在水下应用中有着广泛的应用,如海洋监测、军事侦察、油气钻探等。在常规的USN中,数据采集采用声学作为通信手段上传传感器数据。然而,由于水声通信的高能耗、大时延和低传输速度,有限功率的USNs不适合更新大量的传感数据。多模态传输的自主水下航行器(AUV)可以实现水下传感器网络的高效数据采集以降低节点能耗,延长网络寿命。然而,在复杂的水下环境中,多模态传输和轨迹规划给数据采集带来了巨大的挑战。以往的研究大多集中在多模态结构的设计上,缺乏对AUV轨迹的可行实现和考虑。同时,现有的轨迹规划研究不能很好地处理多个复杂任务同时进行的数据采集。因此,如何保证在复杂的水下环境中,优化多模态传输和AUV的轨迹规划,实现高效的数据采集是亟待解决的问题。

关键技术

本文研究了一种基于深度强化学习(Deep reinforcement learning,DCMD)的多模态水下传感器网络高效数据采集方案。首先,提出了一种优化的多模态传输选择算法,将传输均值和模式的优化选择表述为一个积分线性规划(ILP)问题,考虑AUV的轨迹、距离和水浊度对信噪比的影响进行求解,以实现数据的高速传输。在此基础上,提出了一种基于深度强化学习的分布式多AUV轨迹规划算法,考虑传输情况、洋流和水下障碍物,实现高效的收集速率和能量效率。此外,本文将传输和轨迹规划结合在一个协议中以提高收集效率。

该方法的创新和贡献如下:1)本文提出了一种新的多模态传输选择算法,实现水下数据采集的高质量传输服务。2)综合考虑多模式传输情况、水下障碍物和洋流等因素,提出了一种基于分布式深度强化学习的多AUV轨迹规划算法,最大限度地提高收集速率和能量效率。3)将传输和轨迹规划结合在一个协议中,提高收集效率。 

算法介绍

(1)系统模型与问题公式

A.数据收集系统模型

本文定义USNs中有N个AUVs,K个传感器节点。AUVs的任务是通过有效地控制传感器节点的移动速度和方向来收集K个传感器节点的数据。本文目标是最大限度地提高AUV的收集效率,最大限度地减少能耗。水下航行器的能量消耗来自于它的运动和传输。假设AUV i 在时刻t的能量消耗为运动能耗和传输能耗的和。AUV的发射能量消耗取决于它在时刻t是否通信以及它的通信方式。水下航行器的运动能量消耗取决于其运动状态。在收集过程中,AUVi以速度v^i,t_x,v^i,t_y,v^i,t_z,航向角h^i_t运动,其运动受洋流影响。AUV通常在固定深度巡航以进行收集。在本文的模型中,我们决定了AUV和洋流的x轴和y轴速度和方向。AUV i的运动也受到洋流的影响。海流的流速为v~^i,t_x,v~^i,t_y,其航向角为h~^i_t。在水下环境中存在障碍物。

B.问题公式

本文同时考虑收集率c_t和能源效率η_t两个指标来评价DCMD的性能。收集率定义为

式中,c_t(k)表示传感器节点k’是否被收集。如果收集,则c_t(k) = 1。否则,c_t(k) = 0。

(2)分布式多模态传输和轨迹协议

A.最佳多模态传输选择

1)最优对象

由于不同的传输方式和模式传输数据的功率不同,本文目标是使多模态传输方式s = 1,2,…S和模式y = 1,2,…Y的AUV i的能量消耗最小。我们将传输方式表述为一个积分线性规划问题,旨在通过适当的传输均值s和模式y来优化AUV i的能耗,为

式中, 为AUV i的移动能耗,取决于AUV i随洋流行进时的阻力,P^y_s表示AUV i与传输均值s和模式y通信的能量消耗。传输模式在一定程度上代表传输速度和传输功率。

2)实现细节

本文评估了轨迹、距离和水浊度对信噪比的影响,然后综合考虑距离和信噪比选择合适的传输均值和传输方式,以实现上述最优目标的最大化。由于磁通信的不稳定性,我们采用声光通信作为我们的替代传输手段。发送方i和接收方j之间的距离按位置计算,记为d_i,j。水浊度严重影响水下光通信介质的质量,用消光系数c(λ)来评价影响光通信的信噪比。c(λ)定义为吸收系数a(λ)和散射系数b(λ)的加权和。

对于短距离通信,信噪比有助于从光通信和声通信中进行选择。光通信信噪比为Υ_o,声通信信噪比为Υ_a,分别表示为Υ_o=10lg(S_o/N_o), Υ_a10lg(S_a/N_a)。式中,S_o为有效接收光功率,N_o为光通信环境光噪声。S_a为接收声功率,N_a为环境声噪声。由节点i和j的距离d_i,j和消光系数c(λ)计算为

R_r为接收机的孔径面积。对于声环境中的噪声N_a,主要考虑水流、水面舰艇、风、热噪声,并将其表述为N_a=N_c+N_s+N_w+N_t。如果d_i,j超过光传输阈值,则只能选择声声通信,即x_2,t = 1。考虑到声通信设备的多种调制模式,进一步通过比较声通信信噪比Υ_a和反映信道状况的多个声模式阈值间隔φ_a来确定具体的调制模式。距离d_i,j小于阈值,则考虑光通信信噪比Υ_o,若Υ_o大于光通信最小信噪比S_min,则可选择光通信x_1,t=1。

B.基于深度强化学习的分布式多AUV轨迹规划

本文提出了一种与传输情况紧密耦合的分布式多AUV路径规划算法,以保证USN的高效数据采集和能耗。每个AUV都有自己的继承控制逻辑来确定轨迹,以便以完全分布式的方式收集数据。下面分别介绍本文设计的AUV的DRL模型的状态、观察、动作空间和奖励。

1)模型设计:AUV的任务是通过控制其速度和方向,以协作的方式行进收集K个传感器节点的数据。AUV i在时隙t观察环境o^i_t确定其动作a^i_t。

观测空间:观测空间o^i_t包括AUV i’的位置x^i_t, y^i_,AUV速度v^i,t_x,v^i,t_y,航向角h^i_t,能耗e^i_t。由于对轨迹规划影响较大,因此增加了传输情况Υ_o和Υ_a作为重要观测项。观测空间为O=o^i_t|i∈N,t=1,2,…T。

状态空间:收集速率衡量的是某个特定传感器节点在过去时间t内是否被任何AUV收集过。如果某个传感器节点进入任何AUV的近距离,并且被该AUV收集过数据,则引用传感器节点为“已收集”,否则不收集。结合采集速率和观测空间,得到状态空间为S=O∪c_t(k)|k=1,2,…K。

动作空间: AUV的动作由两个核心变量来衡量:速度和方向,这两个变量都是连续的。因此,AUV i的动作为a^i_t=v^i,t_x, v^i,t_y, h^i_t。所有AUVs的动作空间为A=a_t|t-1,2,…T。

奖励函数:奖励功能分为惩罚和奖励两部分。作为惩罚,每个AUV被禁止在覆盖范围之外移动,或在其最大通信范围R内与所有剩余的AUV失去连接,以确保AUV之间的协作。AUV遇到障碍物时会受到惩罚,以保证其安全。惩罚记为

奖励主要考虑AUV的收集率和能耗,奖励函数为

2)训练与测试:在训练过程中,每个AUV通过AUV之间的通信获取全局环境信息和所有AUV的动作。AUV相互合作,将其局部观测信息传递给其他AUV。训练过程如图1所示。

图1 AUV训练模型

每个AUV有四个神经网络: actor网络,目标actor网络,critic网络,目标critic网络。critic网络根据所有AUV的状态s_t和动作a_t来评估动作的值,actor网络根据critic网络的值来修改所选动作的概率。

首先对所有AUV初始化N个critic网络Q^i(·)N个actor网络μ^i(·),参数分别为θ^Qi和θ^μi。初始化N个目标critic网络和N个目标actor网络。对critic网络和actor网络进行更新。AUV i的critic网络将损失函数最小化,更新为  。目标critic网络参数更新为 目标actor网络参数更新为:  。

C. 协议联合多模态传输和轨迹规划

USNs数据采集协议联合多模态传输与轨迹规划设计如图2所示。传输和轨迹是数据收集的基础和相互作用。在图2中,传输选择部分由A段决定传输均值和方式,为B段的轨迹规划部分提供传输情况。同时,B段的轨迹规划决定水下机器人的速度和方向,并为A段的传输选择部分返回轨迹,两部分根据水下环境的观测进行决策。

图2 USNs数据收集协议联合多模态传输和轨迹规划

对于实现,传输选择部分采用网络功能虚拟化(NFV)和软件定义无线电(SDR)技术以实现灵活、多样、可扩展的水下多路通信。

实验分析

A.传输和移动下的能耗

图3 传输和移动下的能耗

从图3(a)中可以看出,随着光通信节点数量的增加,所有节点的传输能耗下降,说明传输能量效率提高。从图3(b)中可以看出, 相比于通信能耗,移动能耗较小。当80%节点使用光通信时,所有AUV的移动能耗约为14.9J,而当20%节点使用光通信时,所有AUV的移动能耗约为21.1J。

B.训练期间的累计奖励、收集率和能量效率

图4 训练期间的累积奖励:(a)累计奖励  (b)收集率  (c)能源效率

从图4(a)可以看出,随着训练时间的增加,AUV试图保持通信,避开障碍物,并考虑受洋流影响的收集率和能量消耗。因此,AUV的正奖励会上升。从图4(b)可以看出,收集率随时间线性上升,最终达到高收集率,保持在90%以上的波动。从图4(c)可以看出,能量效率的变化趋势与收集率的变化趋势一致。 

C.不同数量AUV的收集率和能量效率

图5 不同数量AUV的收集率和能量效率

从图5可以看出,三或四台AUV的收集速率都明显优于两台AUV。虽然三台AUV的收集率接近四台AUV,但其在图(b)中的能效要高于四台AUV。因此,三台AUV适合本文的模拟覆盖区域。

D. 不同传感器节点数下的DCMD与其他方法的收集率和能量效率

图6 不同传感器节点数下的DCMD与其他方法的收集率和能量效率

从图6(a)、(b)、(c)可以看出,在20、25和30个节点时,DCMD的收集率明显优于CT-DE、APPD和Random方法。从图6(d)、(e)、(f)可以看出,DCMD的平均能效优于IDDQN、APPD和Random。虽然CT-DE的平均能量效率与DCMD相同,但其收集率仅为0.64,对于USN的数据收集来说过低。因此,DCMD的性能优于目前最先进的方法,具有更高的收集率和能量效率。

E. 不同数量AUV的DCMD与其他方法的收集率和能量效率

图7 不同数量AUV的DCMD与其他方法的收集率和能量效率

从图7(a)、(b)、(c)可以看出,DCMD在二、三、四 台AUV下的收集速率优于CT-DE、APPD和Random方法。虽然图7(a)、(b)、(c)中IDDQN的收集率接近DCMD,但DCMD的平均收集率优于IDDQN。从图7(d)、(e)、(f)可以看出,在图7(d)中,DCMD的平均能效优于IDDQN、APPD和Random。虽然CT-DE的平均能量效率最高,但其收集率过低。因此,DCMD具有更高的收集率和能量效率,优于最先进的方法。

总结

本文提出了一种基于深度强化学习的多模态水下传感器网络高效数据采集方案。首先,为了使通信效益最大化,提出了一种最优传多模态传输选择算法。在此基础上,考虑传输情况和独特的水下环境:障碍物和洋流,提出了一种基于深度强化学习的分布式多AUV轨迹规划算法。此外,将传输选择和轨迹规划结合在一个协议中以提高收集效率。

END

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247499010&idx=1&sn=b9ca5148d1874fe09fa3f1e1a6725019&chksm=e9f13d01de86b4175a974329d0e0b23a4cfc66fcb51576360990958aa4139e04bef9ebfebde1&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh