要約
高度にインタラクティブな環境をナビゲートするためにインテリジェント エージェントをトレーニングすることには、大きな課題が伴います。
最初に自我エージェントをトレーニングするための指導ポリシーをトレーニングするガイド付きメタ強化学習 (RL) アプローチは、さまざまなレベルのインタラクションを含むシナリオ全体での一般化性を向上させるのに効果的であることが証明されていますが、最先端の手法は極端な状況に対して過度に敏感になる傾向があります。
場合によっては、より一般的なシナリオでエージェントのパフォーマンスが低下します。
この研究では、ガイド付きメタ RL と重要度サンプリング (IS) を統合し、T 字路交差点や環状交差点などの高度にインタラクティブな運転シナリオをナビゲートするためにトレーニング分布を反復的に最適化する新しいトレーニング フレームワークを導入します。
トレーニング中に重要な相互作用を過小評価したり、極端なケースを過度に強調したりする可能性のある従来の方法とは異なり、私たちのアプローチは、IS 提案分布を使用して、より困難な運転行動に向けてトレーニング分布を戦略的に調整し、重要度比を適用して結果のバイアスを軽減します。
このフレームワークは、現実世界のデータセットから自然な分布を推定し、反復トレーニングの改良に混合モデルを採用することにより、一般的な運転シナリオと極端な運転シナリオにわたってバランスのとれた焦点を保証します。
合成データセットと自然主義データセットの両方を使用して実施された実験では、高度にインタラクティブな運転タスクの下でトレーニングの加速とパフォーマンスの向上の両方が実証されました。
要約(オリジナル)
Training intelligent agents to navigate highly interactive environments presents significant challenges. While guided meta reinforcement learning (RL) approach that first trains a guiding policy to train the ego agent has proven effective in improving generalizability across scenarios with various levels of interaction, the state-of-the-art method tends to be overly sensitive to extreme cases, impairing the agents’ performance in the more common scenarios. This study introduces a novel training framework that integrates guided meta RL with importance sampling (IS) to optimize training distributions iteratively for navigating highly interactive driving scenarios, such as T-intersections or roundabouts. Unlike traditional methods that may underrepresent critical interactions or overemphasize extreme cases during training, our approach strategically adjusts the training distribution towards more challenging driving behaviors using IS proposal distributions and applies the importance ratio to de-bias the result. By estimating a naturalistic distribution from real-world datasets and employing a mixture model for iterative training refinements, the framework ensures a balanced focus across common and extreme driving scenarios. Experiments conducted with both synthetic and naturalistic datasets demonstrate both accelerated training and performance improvements under highly interactive driving tasks.
arxiv情報
著者 | Mansur Arief,Mike Timmerman,Jiachen Li,David Isele,Mykel J Kochenderfer |
発行日 | 2024-10-28 04:48:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google