Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments

要約

高度にインタラクティブな環境をナビゲートするためにインテリジェント エージェントをトレーニングすることには、大きな課題が伴います。
最初に自我エージェントを訓練するための指導ポリシーを訓練する誘導型メタ強化学習 (RL) アプローチは、さまざまなレベルのインタラクションにわたって一般化可能性を向上させるのに効果的であることが証明されていますが、最先端の手法は極端なケースに過度に敏感になる傾向があります。
より一般的なシナリオでは、エージェントのパフォーマンスが低下します。
この研究では、ガイド付きメタ RL と重要度サンプリング (IS) を統合して、T 字路などの高度にインタラクティブな運転シナリオをナビゲートするためのトレーニング分布を最適化する新しいトレーニング フレームワークを導入します。
トレーニング中に重要な相互作用を過小評価したり、極端なケースを過度に強調したりする可能性のある従来の方法とは異なり、私たちのアプローチは、IS 提案分布を使用して、より困難な運転行動に向けてトレーニング分布を戦略的に調整し、重要度比を適用して結果のバイアスを軽減します。
このフレームワークは、現実世界のデータセットから自然な分布を推定し、反復トレーニングの改良に混合モデルを採用することにより、一般的な運転シナリオと極端な運転シナリオにわたってバランスのとれた焦点を保証します。
合成データセットと InD データセットの T 字路シナリオの両方を使用して実施された実験では、トレーニングの高速化だけでなく、自然主義的な条件下でのエージェントのパフォーマンスの向上も実証され、高度にインタラクティブなナビゲーション タスク向けに信頼できる自律エージェントをトレーニングする際に IS とメタ RL を組み合わせることの有効性が示されています。

要約(オリジナル)

Training intelligent agents to navigate highly interactive environments presents significant challenges. While guided meta reinforcement learning (RL) approach that first trains a guiding policy to train the ego agent has proven effective in improving generalizability across various levels of interaction, the state-of-the-art method tends to be overly sensitive to extreme cases, impairing the agents’ performance in the more common scenarios. This study introduces a novel training framework that integrates guided meta RL with importance sampling (IS) to optimize training distributions for navigating highly interactive driving scenarios, such as T-intersections. Unlike traditional methods that may underrepresent critical interactions or overemphasize extreme cases during training, our approach strategically adjusts the training distribution towards more challenging driving behaviors using IS proposal distributions and applies the importance ratio to de-bias the result. By estimating a naturalistic distribution from real-world datasets and employing a mixture model for iterative training refinements, the framework ensures a balanced focus across common and extreme driving scenarios. Experiments conducted with both synthetic dataset and T-intersection scenarios from the InD dataset demonstrate not only accelerated training but also improvement in agent performance under naturalistic conditions, showcasing the efficacy of combining IS with meta RL in training reliable autonomous agents for highly interactive navigation tasks.

arxiv情報

著者 Mansur Arief,Mike Timmerman,Jiachen Li,David Isele,Mykel J Kochenderfer
発行日 2024-07-22 17:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク