Reinforcement learning for safety-critical control of an automated vehicle

要約

車両の自動制御のためのデータ駆動型の意思決定機能の開発、検証、展開に対する当社のアプローチを紹介します。
人工ニューラル ネットワークに基づく意思決定機能は、経路に沿った障害物との衝突を回避しながら、目標点までの事前定義された静的経路に向かって移動ロボット SPIDER を操縦するように訓練されています。
トレーニングは、強化学習分野の最先端のアルゴリズムである近接ポリシー最適化 (PPO) によって実行されます。
結果として得られるコントローラーは、特定の経路に従う能力と、経路に沿って認識された障害物に対する反応性を定量化する KPI を使用して検証されます。
対応するテストはトレーニング環境で実行されます。
さらに、テストは、ロボット工学の状況 Gazebo および現実世界のシナリオでも同様に実行されます。
後者の場合、コントローラーは FPGA ベースの開発プラットフォームである FRACTAL プラットフォームに展開され、SPIDER ソフトウェア スタックに統合されます。

要約(オリジナル)

We present our approach for the development, validation and deployment of a data-driven decision-making function for the automated control of a vehicle. The decisionmaking function, based on an artificial neural network is trained to steer the mobile robot SPIDER towards a predefined, static path to a target point while avoiding collisions with obstacles along the path. The training is conducted by means of proximal policy optimisation (PPO), a state of the art algorithm from the field of reinforcement learning. The resulting controller is validated using KPIs quantifying its capability to follow a given path and its reactivity on perceived obstacles along the path. The corresponding tests are carried out in the training environment. Additionally, the tests shall be performed as well in the robotics situation Gazebo and in real world scenarios. For the latter the controller is deployed on a FPGA-based development platform, the FRACTAL platform, and integrated into the SPIDER software stack.

arxiv情報

著者 Florian Thaler,Franz Rammerstorfer,Jon Ander Gomez,Raul Garcia Crespo,Leticia Pasqual,Markus Postl
発行日 2023-08-31 14:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク