要約
通常、信号のない交差点は、自動運転車にとって最も代表的かつ困難なシナリオの 1 つと考えられています。
このようなシナリオでの自動運転の問題に取り組むために、この論文では段階減衰クリッピングを使用したカリキュラム近接政策最適化 (CPPO) フレームワークを提案します。
近接ポリシー最適化 (PPO) によるトレーニングのさまざまな段階でクリッピング パラメーターを調整することにより、車両はまず大きなパラメーターで近似の最適なポリシーまたはその近傍を迅速に検索し、次に小さなパラメーターで最適なポリシーに収束します。
特に、提案されたフレームワークには段階ベースのカリキュラム学習技術が組み込まれており、汎化パフォーマンスを向上させ、トレーニングプロセスをさらに加速します。
さらに、報酬関数はさまざまなカリキュラム設定を考慮して特別に設計されています。
提案された CPPO 手法の有効性を検証するために、二車線車道を使用した交差点横断シナリオで一連の比較実験が実行されます。
結果は、提案されたアプローチが、さまざまな動的で複雑な環境に対する適応性の向上と、ベースライン手法よりもトレーニング速度が速いことを示しています。
要約(オリジナル)
Unsignalized intersections are typically considered as one of the most representative and challenging scenarios for self-driving vehicles. To tackle autonomous driving problems in such scenarios, this paper proposes a curriculum proximal policy optimization (CPPO) framework with stage-decaying clipping. By adjusting the clipping parameter during different stages of training through proximal policy optimization (PPO), the vehicle can first rapidly search for an approximate optimal policy or its neighborhood with a large parameter, and then converges to the optimal policy with a small one. Particularly, the stage-based curriculum learning technology is incorporated into the proposed framework to improve the generalization performance and further accelerate the training process. Moreover, the reward function is specially designed in view of different curriculum settings. A series of comparative experiments are conducted in intersection-crossing scenarios with bi-lane carriageways to verify the effectiveness of the proposed CPPO method. The results show that the proposed approach demonstrates better adaptiveness to different dynamic and complex environments, as well as faster training speed over baseline methods.
arxiv情報
著者 | Zengqi Peng,Xiao Zhou,Yubin Wang,Lei Zheng,Ming Liu,Jun Ma |
発行日 | 2023-08-31 04:12:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google