top
请输入关键字
连续时间MDPs增强学习方法及其在无人机控制中的应用



主   办:力学系与湍流重点实验室
报告人:王祥科教授
时   间:3月11日 周五上午10点
地   点:澳门太阳娱乐网站官网力学楼314会议室
主持人:李忠奎 研究员


报告内容简介:


无人机系统在恶劣气象条件和动态战场环境中的应用,给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及非结构化环境和动态环境等诸多挑战。从连续时间Markov 决策过程(Continuous-time Markov Decision Processes,CTMDPs)出发,提出了适用于CTMDPs 增强学习的理论方法,并应用到无人机自主控制中。采取连续时间Markov 决策过程对无人机系统控制问题中的不确定性进行建模,构建了基于性能势的CTMDPs 模型。在此基础上给出基于性能势的CTMDPs 模型策略迭代求解算法,其对参数变化具有较高的鲁棒性。进一步,提出了基于性能势的CTMDPs 模型增强学习方法(CTMDPs-RL),并应用于典型的无人机控制问题,求解了“爬升-下降”轨迹跟踪、“S 型转弯”轨迹跟踪、定高飞行、定速飞行等算例。理论和实验分析表明CTMDPs-RL 算法在无人机动力学模型未知前提下,通过不断学习,可以较快得到满足要求的控制策略。

报告人简介:


王祥科,男,国防科技大学机电工程与自动化学院无人系统研究所副教授。2004年、2006年、2011年分别获得国防科技大学自动控制专业学士学位、控制科学与工程专业硕士和博士学位,2009年-2011年在国家留学基金委的支持下赴澳大利亚国立大学联合培养两年。主要从事无人机自主控制、多无人系统协同、非线性控制等相关研究。以第一作者或者通信作者在重要国际期刊发表SCI检索论文15篇以上,包括IEEE Transactions on Robotics, IEEE Transactions on Cybernetics等。作为项目负责人或者主要成员承担无人系统相关项目10余项,包括主持国防973项目“无人-有人XX飞机协同控制基础理论研究”专题、多项总装装备预研重点基金、国家自然科学基金青年基金等。作为技术骨干和领队,自主研发了多代足球机器人和救援机器人平台,参加RoboCup机器人足球世界杯中型组比赛,进入8强2次、6强1次,技术挑战赛季军2次;参加中国机器人大赛暨RoboCup中国公开赛中型组和救援机器人组比赛,获得冠军7项。