我院张子天老师课题组:异构接入网基于多智能体深度强化学习的下行波束整形架构

2023-11-23







导读

我院张子天老师课题组于2023年6月在国际期刊Transactions on Wireless Communications(Q1,IF: 10.4)发表题为“ Multi-Agent Deep Reinforcement Learning Based Downlink Beamforming in Heterogeneous Networks”的研究性论文。

异构蜂窝网络中多入多出(MIMO)的天线传输技术利用空分复用技术,可以极大提升网络系统的频谱资源效率和数据传输吞吐量,被普遍认为是实现未来通信系统的关键技术。当系统中存在多个下行传输任务时,如何对异构基站进行联合波束整形,降低任务间相互干扰,是学术界长期关注的研究热点。现有集中式或分布式算法难以平衡波束整形问题求解有效性与计算、交互开销复杂性,限制了它们在实际场景中的可用性。

本研究基于深度强化学习技术,提出了一种多智能体的异构蜂窝网络多基站联合波束整形架构。在该架构中,每个基站被视为一个独立的智能体,通过观测与该基站相关的局部网络状态信息确定其自身波束整形策略,从而极大降低了波束整形问题求解的计算和信息交互开销。此外,架构采用一种新颖的智能体“集中式奖励-分布式训练”策略。在该策略中,各智能体定期收集网络全局统一表现信息作为自身动作评价神经网络奖励函数并基于此采用分布式地方法不断更新自身策略神经网络和动作评价神经网络的权重向量,使得各智能体能够共同得到波束整形问题的全局最优解。研究工作针对不同系统场景,对所提架构性能进行了大量验证。实验结果表明,所提架构可以在可接受时间内实现智能体神经网络权重向量的收敛;相比于权重最小均方差算法(WMMSE)、博弈算法等传统波束整形算法,所提架构可以有效提升系统吞吐量表现;对于基站、终端用户位置快速变化,所提架构具有良好的适应性与鲁棒性。

图片

研究亮点

针对异构蜂窝网络多基站多用户下行通信场景,刻画了联合波束整形问题的数学模型;提出了一种基于多智能体深度强化学习的波束整形问题求解架构;并针对架构设计了新颖的智能体“集中式奖励-分布式训练”策略。

图片

图1 多基站多用户下行通信场景

图片

图2 信道模型和问题刻画

图片

图3 基于多智能体深度强化学习的波束整形问题求解架构

图4 (a)智能体策略神经网络;(b)智能体动作评价神经网络

图5 智能体“集中式奖励-分布式训练”策略系统时序流程图


主要研究

结论

对于不同规模异构蜂窝网络场景,所提架构可以在5000个系统调度周期内实现智能体策略神经网络和动作评价神经网络的权重向量收敛。在不同天线数量、不同基站功率阈值等多种系统场景下,相比于WMMSE、博弈算法、随机波束赋值算法等传统波束整形算法,所提架构由于采用了智能体“集中式奖励-分布式训练”策略,可以得到波束整形问题的全局最优解,从而有效提升系统吞吐量表现。对于基站或终端用户位置存在快速变化的系统场景,所提架构具有良好的适应性与鲁棒性。此外,相比于终端用户位置大幅度改变,所提架构表现对于基站位置变化具有更高的敏感性。

图6 (a)基站配备小数量天线时架构收敛性表现;(b)基站配备大数量天线时架构收敛性表现

图7 (a)基站配备小数量天线时所提架构与传统波束整形算法系统吞吐量表现;(b)基站配备大数量天线时所提架构与传统波束整形算法系统吞吐量表现

图8 (a)基站配备小数量天线时基站功率阈值对各算法吞吐量影响;(b)基站配备大数量天线时基站功率阈值对各算法吞吐量影响

图9 基站天线数量对各算法吞吐量影响

图10 (a)终端用户位置大幅度改变对所提架构稳定性影响;(b)基站位置突然改变对所提架构稳定性影响


作者

介绍

张子天(第一作者),永乐高ylg8888(萨塞克斯人工智能学院),欧盟玛丽居里学者,于2010年与2016年在上海交通大学取得工学学士与工学博士学位。张子天拥有丰富企业工作背景和学术研究经历并曾主持多项科研项目,这些项目包括中国航空工业集团创新项目和欧盟玛丽居里科研项目。张子天已在国际高水平期刊和会议上发表学术论文约20篇,并担任多个国际权威期刊审稿人。