融合类人驾驶行为的 无人驾驶深度强化学习方法

文:吕 迪 1,2,3 徐 坤 1,2 李慧云 1,2 潘仲鸣 1,22020年第五期

现有无人车辆的驾驶策略过于依赖感知 - 控制映射过程的“正确性”,而忽视了人类驾驶汽车 时所遵循的驾驶逻辑。该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端 无人驾驶控制策略。通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续 有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为 输出率。针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函 数,提高了算法训练的稳定性。不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏 灾难性事件时,对目标函数优化期望的近似程度提高了85.57%,训练效率比传统深度确定性策略梯度算法提高了 21%,任务成功率提高了 19%,任务执行效率提高了 15.45%,验证了该方法在控制效率和平顺性方面具备明显优势,显著减少了碰撞事故。

1.png

2.png

3.png

4.png

5.png

6.png

7.png

8.png

9.png

10.png

11.png

12.png

13.png

14.png

15.png

16.png

17.png

18.png

19.png

20.png

21.png

22.png

23.png

24.png

25.png

26.png

27.png

28.png

29.png

30.png

31.png


中传动网版权与免责声明:

凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(www.chuandong.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。

本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

伺服与运动控制

关注伺服与运动控制公众号获取更多资讯

直驱与传动

关注直驱与传动公众号获取更多资讯

中国传动网

关注中国传动网公众号获取更多资讯

热搜词
  • 运动控制
  • 伺服系统
  • 机器视觉
  • 机械传动
  • 编码器
  • 直驱系统
  • 工业电源
  • 电力电子
  • 工业互联
  • 高压变频器
  • 中低压变频器
  • 传感器
  • 人机界面
  • PLC
  • 电气联接
  • 工业机器人
  • 低压电器
  • 机柜
回顶部
点赞 0
取消 0
往期杂志
  • 2024年第1期

    2024年第1期

    伺服与运动控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服与运动控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服与运动控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服与运动控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服与运动控制

    2023年第1期