基于机器学习的工业机器人路径规划方法

(整期优先)网络出版时间:2023-08-30
/ 2

基于机器学习的工业机器人路径规划方法

周凯,李清华,刘卓,赵曼洁,唐楚馨

北方自动控制技术研究所山西太原030006

摘要:工业机器人是“制造业皇冠顶端的明珠”,其研发、制造、应用是衡量一个国家科技创新和高端制造业水平的重要标志。随着工业机器人的普及和不断发展,其面临高速度、高精度、高智能的挑战,其中高智能是制约工业机器人推广的重要因素。路径规划是机器人智能控制的核心技术,已成为当前业界研究的热点问题。利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径。在工业机器人工作环境中,规划一条无碰撞路径,因此,研究工业机器人避障路径规划方法,选择一条最优路径,提高机器人对工作场景的适应性,具有重要意义,合理的路径轨迹规划可以让机器人在复杂的环境下安全稳定地工作。

关键词:工业机器人;路径规划;学习

前言:随着应用领域的增加和任务的复杂化,有些任务若只依靠单个机器人来完成,效率很低,甚至有可能无法完成。因此,人们也越来越多地考虑使用多个机器人来协调完成单机器人难以完成的任务。而对于多机器人系统(Multi-robotSystems,MRS)来说,最基本的一个问题同单机器人系统一样,就是路径规划问题。但是,多机器人系统不同于单机器人系统,在共享工作空间里,不仅存在着静态障碍物,同时还存在系统中的其他运动机器人。

1.机器人路径规划方法

1.1单机器人路径规划方法

单机器人系统在家庭服务、农业助力、工业环境、军事救助等方方面面都得到广泛的应用。在这些应用中,规划出一条路径使机器人能够安全无碰地抵达目标状态是完成任务的一个首要条件。单机器人系统路径规划是指:在其工作环境中找到一条从起始状态到目标状态的能避开所有障碍物的路径。全局路径规划中,学习系统已经知道了机器人周围的全部环境信息,因此该方法包含两部分内容:环境地图构建和路径规划方法。环境地图一般可以简化为二维模型,之后根据已知的环境信息构建路径搜索空间。目前的表示方法可以大致分为三类:栅格表示、几何信息表示和拓扑图表示。栅格表示法是将整个工作环境按照相同的大小划分成若干个小方格,即栅格,同时对于每个栅格分别进行说明是否存在着障碍物;其特点是:较为容易创建与维护,但当栅格数量增大时,内存消耗会非常大,并且实时处理会变困难。几何法是使用更为抽象的几何特征来对环境进行描述,这种方法方便位置估计和目标识别,但几何信息的提取需要对感知信息做额外的处理,并且需要有大量感知信息的支撑才能得出结果,较为复杂。拓扑图将环境表示为一张拓扑意义中的图,图中的节点对应于环境中的一个特征状态、地点,如果节点间存在直接连接的路径则相当于图中连接节点的弧,它能实现快速的路径规划但是当存在两个很相似的地方时,这种方法很难确定这是否为同一个节点。最后,在构建好的环境地图上使用寻路算法(例如A*算法等)搜索出一条无碰撞的最优路径。除了已知全局环境下的路径规划,还有着环境信息部分可知或者未知的场景,该场景下的路径规划被称为局部路径规划。局部路径规划中的环境信息更加复杂,难以精确掌握,并且可能随着时间发生改变,其主要使用人工势场法、遗传算法以及强化学习的方法。人工势场法,假设在机器人的工作空间中存在着一个人工的虚拟力场,障碍物对机器人产生一个斥力,目标状态对机器人产生一个引力,这两个力的共同作用就影响了机器人下一步的运动动作。人工势场法的优点是结构较为简单,能够快速实现,并且便于实时控制。但是,该方法容易使机器人陷于局部最优状态或者在障碍物附近不断徘徊。遗传算法,模仿了自然选择的过程,借鉴了物种进化的思想,从而演化而来的一种随机化搜索方法。该方法的好处是易于搜索到全局最优解,但是当问题较为复杂时,该方法容易陷入局部最优。

1.2多机器人路径规划方法

随着机器人技术的发展及生产实践的需求,多机器人系统的研究已经成为了目前的研究热点,但是多机器人系统同时也将使系统更加地复杂化。为了应对多机器人路径规划的需求,使用什么算法来优化多机器人的路径规划,已经成为多机器人路径规划方向的主要问题之一。现今,主要的多机器人路径规划方法都是在单机器人路径规划方法上进行改进,从而使其可以应用于多机器人路径规划中。但是由于在同一个工作空间内存在多个机器人同时作业,相互之间不可避免会产生资源竞争,因此多机器人之间的协调是其中的关键问题。针对多机器人系统的路径规划,不应该是简单地叠加每个机器人的单机器人路径规划路线,必须将其作为一个整体考虑。如今解决多机器人系统路径规划主要有四个类型:完全集中的路径规划、不完全集中的路径规划、不完全分散的路径规划、完全分散的路径规划。下面介绍其中两个类型:完全集中的路径规划以及完全分散的路径规划。完全集中的路径规划,也就是将整个多机器人系统看作是一个机器人,通过设置一个主系统规划器,对系统中的各个机器人进行统一调度。这种方法可以实现系统的紧密协调,也是完备的。但是在任务和环境变得复杂,机器人数量相对较多时,该方法的计算复杂性会大幅增加,难以保证系统的可靠性。完全分散的路径规划,与集中式对应的将多机器人系统中的多个机器人看作是相互独立的个体。这样一来,可以降低计算的复杂度,同时对环境的适应能力也得到了增强。完全分散的路径规划主要将路径规划过程分为两个阶段:第一阶段是完成各个机器人路径规划,初步规划出各个机器人与环境中障碍物的无碰路径。第二阶段就是针对机器人之间发生碰撞时,完成避碰操作。该方法的重点在于如何解决第二步的避碰,目前主要有优先级法、交通规则法等。优先级法主要是事先人为的按照某种规则对机器人进行分级,优先级高的机器人不需要避让优先级低的机器人,优先级低的机器人则针对冲突区域进行新的规划,从而完成机器人之间的避碰。

2.实验测试

将此次设计方法,与基于优化蚁群混合算法的避障路径规划方法、基于多传感器信息融合的避障路径规划方法,进行对比实验,比较三种方法规划时间、路径长度、规划成功率。

2.1测试场景

搭建工业机器人平台,选择bobac工业机器人作为测试对象,该机器人搭载上下两层控制器,使用全向轮运动,具有电源开关、急停开关、14英寸显示屏、防跌传感器、碰撞传感器。bobac机器人预装了ROS控制系统,上位机控制器为bobac工控器,具有丰富的传感器接口,下位机控制器负责实现不同类型的避障动作。实验环境为某工厂的宽敞厂房,在厂房内布置障碍物,改变障碍物数量和位置,得到简单场景和复杂场景。利用栅格地图表示厂房环境,实验场景和两种场景的理论最优避障路径如图1所示。图中黑色部分表示障碍物,左上方为bobac机器人移动

(a)简单场景和理论最优避障路径

(b)复杂场景和理论最优避障路径

图1工业机器人移动环境信息

起始点,右下方为目标点,每一个栅格代表一个运动状态,机器人移动范围不能超出场地,且应避开所有障碍物。2.2设计方法应用设计方法选择RPLIDARA2电子罗盘,该电子罗盘能够实现360°全方位扫描,扫描频率为10Hz~15Hz,测距时间为0.30ms,测距范围为0.20m~7m,超声波传感器选择S02-UWR型号,测距精度为0.8mm,测量范围为40mm×30mm×22mm,将电子罗盘和超声波传感器经由串口,连接至bobac机器人的下位机控制器。划分机器人运动状态,机器人线速度H恒定,当角速度h为-1.5rad/s时,避障动作为大幅度右转(H,h)4,当h为-0.75rad/s时,避障动作为小幅度右转(H,h)2,当h为0时,避障动作为直行(H,h)1,当h为0.75rad/s时,避障动作为小幅度左转(H,h)3,当h为1.5rad/s时,避障动作为大幅度左转(H,h)5,其中正值表示角速度方向为左,负值表示角速度方向为右。设置BP神经网络参数如下:训练总步数为2万步,每次深度强化学习的步数上限为200步,学习率为0.1。

2.3测试结果分析

bobac机器人以0.4m/s的线速度移动,三种方法规划的避障路径如图2所示。

(a)简单场景避障路径规划

(b)复杂场景避障路径规划

图2工业机器人避障路径规划结果

由图2可以看出,针对简单环境和复杂环境两种场景,设计方法规划的最优避障路径,与理论最优避障路径基本一致。为进一步比较三种方法的优劣,分别在简单环境和复杂环境下进行200次实验,比较三种避障路径的规划时间、路径长度、成功率。当bobac机器人成功从起始点到达目标点,没有碰撞任何障碍物,判断避障路径规划成功,否则判断避障路径规划失败,统计成功次数Q和失败次数P,成功率l计算公式为:

三种方法实验对比结果如表1所示:

表1规划时间、路径长度、成功率实验对比结果

由上表可知,机器人在简单场景移动时,设计方向相比另外两种方法,规划时间分别减少了7.516s、10.809s,路径长度分别减少了1.712m、1.809m,规划成功率分别增加了3.5%、6.0%;针对复杂场景,设计方法规划时间分别减少了10.114s、14.015s,路径长度分别减少了1.444m、1.721m,规划成功率分别增加了4.3%、5.8%,设计方法规划的避障路径具有很大优势,更适合工业机器人执行。

3.结束语:

综上所述,由于真实环境中不可避免出现的各种动态因素的影响,加上复杂机器人系统自身存在的瞬时信息,从而影响工业机器人路径规划的稳定性。在传统支持向量机融合Type-2模糊集概念,将两论域结构扩展为多论域,构建全新的工业机器人Type-2模糊支持向量机路径规划运动模型实现对模糊信息和随机信息的统一处理机制,对环境信息的可靠分析和处理显得尤为重要,而且需要在实时性、准确性和鲁棒性三个方面取得进一步的突破。目前随着深度学习的发展,基于强化学习的模型是复杂环境和不确定因素较多的环境中规划出一条安全路径的解决之道。强化学习虽然可以应对不确定环境,但一个难点在于现实中往往很难有足够的数据样本或者低成本的快速试错环境,因此构建模拟的工作环境,仿真工业机器人的行动是有必要的。

参考文献:

[1]徐淑琼,陈升平,潘文炜.基于概率核模糊聚类剪枝的工业机器人在线控制研究[J].数字技术与应用,2019,37(09):1-3.

[2]徐淑琼,模糊支持向量机及其在场景图像中的应用研究[D].广州:广东工业大学,2013.

[3]丛志文,王好臣,高茂源,等.KR16-2机器人运动学分析及路径规划[J].机床与液压,2020,48(15):50-55.

[4]张文强.6Kg工业机器人路径规划及运动仿真研究[M].合肥:合肥工业大学,2017