第四十三章 签下两笔大单(2 / 3)
“首先,我们把每一台机器人看作是智能体,使用随机博弈描述多机器人之间的交互,以此建模多机器人之间的相互影响,再使用多智能体强化学习方法对随机博弈进行求解。”
“任务调度和路径规划采用分别建模的方式,任务调度的状态定义为机器人位置和运行状态,而路径规划的状态定义为每台机器人的任务分配情况。”
“如此一来,任务调度策略优化和路径规划可以同时进行。”
“至于所采用的的算法,我们曾进行过较为广泛的调研,并有一定的研究基础。”
“为了缓解多智能体强化学习算法中的动作空间维数灾问题,我们使用了独立式学习和深度学习这两种方法。”
“为保证算法的收敛性和最优性,我们使用演化博弈对所提方法进行建模,然后使用李雅普诺夫直接法和间接法分析算法模型的渐近稳定性,使用迭代的方法设计出具有收敛性和最优性的算法。”
“其次,机器人的冲突解决方案,我们不再采用滑动时间窗方法,而是拟将现有机器人进行升级改造,通过加装传感器,并使用强化学习和滑模控制技术来完成更为精细的运动控制,从而提高路段的使用效率。”
“最后,在新的作业场景中部署系统时,针对强化学习泛化性能不佳的问题,我们提出使用迁移强化学习加以解决。”
“这样,当作业场景的布局发生变动后,可以利用之前收集到的数据和学习到的策略、价值函数来帮助在新作业场景中进行学习和优化,从而提高系统的启动效率。”
紧接着,尚斌对所提方案的可行性进行了详细的分析。
最后,由郝俊教授介绍了自己团队以和现有实验条件。
听完尚斌的报告,托马斯满意地捋了捋胡子。
在他看来,虽然尚斌的方案有些激进,但也不失为一次大胆的尝试。
尚斌身上颇有些他年轻时的影子。
难怪尼古拉希望与这小子一起合作开发他那套破装甲。
结束汇报后,尚斌看向台下,发现一名头发花白的评审专家正摸着胡子看他,还给了他一个肯定的眼神。
……
技术交流会一直进行到下午3点才结束。
回到院楼办公室,尚斌已经十分疲乏。