异构蜂窝网络中多入多出(MIMO)的天线传输技术利用空分复用技术,可以极大提升网络系统的频谱资源效率和数据传输吞吐量,被普遍认为是实现未来通信系统的关键技术。当系统中存在多个下行传输任务时,如何对异构基站进行联合波束整形,降低任务间相互干扰,是学术界长期关注的研究热点。现有集中式或分布式算法难以平衡波束整形问题求解有效性与计算、交互开销复杂性,限制了它们在实际场景中的可用性。
本研究基于深度强化学习技术,提出了一种多智能体的异构蜂窝网络多基站联合波束整形架构。在该架构中,每个基站被视为一个独立的智能体,通过观测与该基站相关的局部网络状态信息确定其自身波束整形策略,从而极大降低了波束整形问题求解的计算和信息交互开销。此外,架构采用一种新颖的智能体“集中式奖励-分布式训练”策略。在该策略中,各智能体定期收集网络全局统一表现信息作为自身动作评价神经网络奖励函数并基于此采用分布式地方法不断更新自身策略神经网络和动作评价神经网络的权重向量,使得各智能体能够共同得到波束整形问题的全局最优解。研究工作针对不同系统场景,对所提架构性能进行了大量验证。实验结果表明,所提架构可以在可接受时间内实现智能体神经网络权重向量的收敛;相比于权重最小均方差算法(WMMSE)、博弈算法等传统波束整形算法,所提架构可以有效提升系统吞吐量表现;对于基站、终端用户位置快速变化,所提架构具有良好的适应性与鲁棒性。