融合类人驾驶行为的 无人驾驶深度强化学习方法
文:吕 迪 1,2,3 徐 坤 1,2 李慧云 1,2 潘仲鸣 1,22020年第五期
现有无人车辆的驾驶策略过于依赖感知 - 控制映射过程的“正确性”,而忽视了人类驾驶汽车 时所遵循的驾驶逻辑。该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端 无人驾驶控制策略。通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续 有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为 输出率。针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函 数,提高了算法训练的稳定性。不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏 灾难性事件时,对目标函数优化期望的近似程度提高了85.57%,训练效率比传统深度确定性策略梯度算法提高了 21%,任务成功率提高了 19%,任务执行效率提高了 15.45%,验证了该方法在控制效率和平顺性方面具备明显优势,显著减少了碰撞事故。
中传动网版权与免责声明:
凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(www.chuandong.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。
本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
关注伺服与运动控制公众号获取更多资讯
关注直驱与传动公众号获取更多资讯
关注中国传动网公众号获取更多资讯
- 运动控制
- 伺服系统
- 机器视觉
- 机械传动
- 编码器
- 直驱系统
- 工业电源
- 电力电子
- 工业互联
- 高压变频器
- 中低压变频器
- 传感器
- 人机界面
- PLC
- 电气联接
- 工业机器人
- 低压电器
- 机柜