足球彩票科研团队在自主水下航行器领域取得系列进展

近年来，随着水下机器人技术的快速发展，人类对海洋资源的开发进程显著加快，催生了众多新型水下智能设备。其中，自主式水下航行器（AUV）因其自动化、智能化及隐蔽性强的特点，广泛应用于水下目标追踪、数据收集、污染源检测等领域。AUV的研究和发展对于海洋资源的勘探与利用具有深远的意义。

近日，足球彩票信息科学与工程学院韩光洁教授团队针对AUV集群网络在复杂海洋环境下的可扩展性目标追踪问题，在架构层面，集成了多智能体强化学习算法和软件定义网络技术的优势，建立了弹性计算的模型，创新性的提出了弹性软件定义多智能体强化学习架构，如图1所示，以动态调整AUV集群网络中AUV的数量，增强了AUV集群网络的扩展性。该团队在此基础上，在理论层面，设计了增量式多智能体强化学习算法，建立了神经网络可解释的计算模型，以无需再训练的方式提升了多智能体强化学习的扩展性，突破了多智能体强化学习扩展性差的理论限制。实验结果表明，该团队所提出的方法可以有效的以无需再训练的方式实现AUV数量的动态扩展，并保证高效的目标追踪效果。

图1 弹性软件定义多智能体强化学习架构

针对自主水下航行器在复杂海洋环境的避障问题，该团队集成多智能体强化学习技术与软件定义技术的优势，并受自动化控制领域“中断”机制的启发，该团队揭示了多智能体强化学习训练中奖励值分布的机理，提出了基于中断的软件定义多智能体强化学习架构，并在此基础上，创新性的将多智能体强化学习与有监督学习相结合，利用每个AUV的局部观测信息生成有监督标签，提出了基于有监督的多智能体策略梯度算法，如图2所示，并设计了特定的避障方案。具体来讲，该团队将AUV集群的避障事件从多智能体强化学习的奖励函数中剥离出来，以使MARL算法专注于驱使AUV集群网络进行路径规划，并使用特定的避障算法驱使AUV集群网络进行避障。实验结果表明，该团队提出的方法将多智能体强化学习和有监督学习相结合，显著提升多智能体强化学习算法的收敛速度，该团队在大量实验下证明了中断机制的有效性，并在多场景下测试了AUV集群网络的避障效果。

图2 基于有监督学习的多智能体策略梯度算法

针对自主水下航行器在复杂海洋环境下智能性差、信息交互复杂的问题，该团队将软件定义网络技术与多智能体强化学习技术相结合，并受“层次化”的启发，提出了基于层次化的软件定义多智能体强化学习架构，建立了层次化的AUV集群网络模型，如图3所示，其将AUV集群网络划分为三层，并利用多智能体强化学习为每一层进行任务部署。同时，在理论层面上，受“优势互补”的启发，该团队提出了“优势注意力”机制和“优势重采样”的理论，并在此基础上提出了基于“优势互补”的多智能体强化学习算法。具体来讲，该算法旨在训练过程中挑选最优（奖励值最大）的智能体，并利用最优智能体的信息帮助其它智能体学习，进而加速算法收敛。仿真结果表明，该团队提出的算法可以有效利用优势智能体的信息，高效提升了多智能体强化学习算法的收敛速度，提升了AUV集群网络的目标追踪精度，并在大规模AUV集群网络下实现了高效的目标追踪。

图3 基于层次化的软件定义多智能体强化学习架构

针对自主水下航行器在复杂海洋环境中的路径规划问题，该团队结合深度强化学习算法和混合动作空间理论展开了深入研究。该团队基于真实的海洋实验数据，综合考虑障碍物和洋流等因素，提出了一种基于混合动作空间的路径规划策略。实验结果表明，该策略不仅能有效调整AUV的速度和方向，实现高效的路径规划和避障功能，还在高密度障碍物环境中显著减少了路径长度和避障时间，提升了AUV在低密度障碍环境中的稳定性和任务完成效率。

图4基于真实海洋数据的立体海洋场景仿真环境

在单个AUV路径规划研究的基础上，韩光洁团队进一步探讨了AUV集群网络的智能追踪问题。他们深入剖析了多智能体强化学习技术与软件定义技术的共同点，提出了软件定义多智能体强化学习范式。该范式利用软件定义技术的集中控制和分布式运转特点，结合多智能体强化学习的集中训练与分布式执行模式，赋予了AUV集群网络在目标追踪任务中的智能化和集中化能力。针对AUV集群网络在目标追踪过程中扩展性差和维度爆炸的问题，该团队设计了MA-A3C算法，成功应对了AUV集群网络在复杂环境中的智能控制挑战，并显著提升了多AUV在目标追踪任务中的成功率和计算效率。

图5 软件定义多智能体强化学习架构

为解决AUV集群在覆盖任务中效率和精度低的问题，团队开发了一种结合聚类算法与人工势场算法的混合模型，并通过粗细粒度建模实现自适应调整。该模型不仅在不同任务场景中提升了AUV集群的路径平滑度，还提高了整体覆盖效率和精度。此外，团队还针对海洋污染源探测任务，设计了一个基于软件定义技术和6G无线传感网的AUV集群勘探污染源的方案，通过等势线的跟踪模型实现了更精准的污染源定位。

图6 基于等势线跟踪模型的污染源覆盖任务评估

在应对AUV集群自主决策能力差的问题上，韩光洁团队结合强化学习算法与软件定义技术，提出了Software-Defined CTDE架构。该架构通过自注意力嵌入机制，将软件定义技术的高性能管理与强化学习算法的高效自主决策相结合，显著提升了AUV集群在海洋污染源探测中的探测效率和精度。

图7 基于软件定义水下移动探测网络的海洋污染源探测

该团队针对海上运输系统的智能性差，扩展性差的问题，在基于AUV集群网络的水下无线传感器网络进行了研究。为了提高网络的可扩展性和可控性，该团队提出了一种基于软件定义的多AUV的水下传感器网络范式，其中利用软件定义网络技术通过指导智能网络功能对UWN架构进行升级，并应用拓扑学和人工势场理论构建了SD-UWN的网络控制模型。该团队基于SD-UWNs高效的数据共享能力，提出了一种基于早期预警避障的路径规划方案，以保证SD-UWNs的安全航行，同时考虑了全面的避障场景。仿真结果表明，所提方法能够有效地规划SD-UWN的协同作业，能够准确可靠地驱使AUV集群网络执行避障任务。

韩光洁团队在自主水下航行器领域的系列研究为提升AUV集群在复杂海洋环境中的自主决策能力和任务执行效率提供了新的解决方案，为水下探测和资源开发奠定了坚实的技术基础。

以上研究工作得到了国家自然科学基金区域创新发展联合基金重点项目、国家自然科学基金一般项目以及声学国家重点实验室开放基金资助，相关成果发表在《IEEE Transactions on Mobile Computing》《IEEE Wireless Communications Magazine》《IEEE Transactions on Intelligent Transportation Systems》《IEEE Internet of Things Journal》等国际顶级期刊。

导航

足球彩票科研团队在自主水下航行器领域取得系列进展