要約
深層強化学習 (DRL) は、インテリジェント エージェント (自動運転車など) が複雑なシナリオをナビゲートする方法を学習するための有望な方法を提供します。
ただし、関数近似器としてニューラル ネットワークを使用した DRL は、通常、説明可能性がほとんどないブラック ボックスとみなされ、特に高度にインタラクティブなマルチエージェント環境での自律ナビゲーションでは、次善のパフォーマンスに悩まされることがよくあります。
これらの問題に対処するために、時空間関係推論を備えた 3 つの補助タスクを提案し、それらを標準の DRL フレームワークに統合します。これにより、意思決定のパフォーマンスが向上し、説明可能な中間指標が提供されます。
我々は、周囲のエージェント(例えば、人間の運転手)の内部状態(すなわち、特性や意図)を明示的に推論することと、反事実推論を通じて自我エージェントの有無にかかわらず、それらの将来の軌道を予測することを提案する。
これらの補助タスクは、他の対話型エージェントの動作パターンを推測するための追加の監視信号を提供します。
フレームワーク統合戦略の複数のバリエーションが比較されます。
また、時空間グラフ ニューラル ネットワークを使用して動的エンティティ間の関係をエンコードし、エゴ エージェントの内部状態の推論と意思決定の両方を強化します。
さらに、これら 2 つの状況における予測軌跡の差に基づいて、自我エージェントが他のエージェントに及ぼす影響の程度を示す対話性推定メカニズムを提案します。
提案手法を検証するために、車両と歩行者をシミュレートするインテリジェント交差点ドライバー モデル (IIDM) に基づいた交差点運転シミュレーターを設計します。
私たちのアプローチは、標準的な評価指標に関して堅牢かつ最先端のパフォーマンスを実現し、意思決定のための説明可能な中間指標 (つまり、内部状態や対話性スコア) を提供します。
要約(オリジナル)
Deep reinforcement learning (DRL) provides a promising way for intelligent agents (e.g., autonomous vehicles) to learn to navigate complex scenarios. However, DRL with neural networks as function approximators is typically considered a black box with little explainability and often suffers from suboptimal performance, especially for autonomous navigation in highly interactive multi-agent environments. To address these issues, we propose three auxiliary tasks with spatio-temporal relational reasoning and integrate them into the standard DRL framework, which improves the decision making performance and provides explainable intermediate indicators. We propose to explicitly infer the internal states (i.e., traits and intentions) of surrounding agents (e.g., human drivers) as well as to predict their future trajectories in the situations with and without the ego agent through counterfactual reasoning. These auxiliary tasks provide additional supervision signals to infer the behavior patterns of other interactive agents. Multiple variants of framework integration strategies are compared. We also employ a spatio-temporal graph neural network to encode relations between dynamic entities, which enhances both internal state inference and decision making of the ego agent. Moreover, we propose an interactivity estimation mechanism based on the difference between predicted trajectories in these two situations, which indicates the degree of influence of the ego agent on other agents. To validate the proposed method, we design an intersection driving simulator based on the Intelligent Intersection Driver Model (IIDM) that simulates vehicles and pedestrians. Our approach achieves robust and state-of-the-art performance in terms of standard evaluation metrics and provides explainable intermediate indicators (i.e., internal states, and interactivity scores) for decision making.
arxiv情報
著者 | Jiachen Li,David Isele,Kanghoon Lee,Jinkyoo Park,Kikuo Fujimura,Mykel J. Kochenderfer |
発行日 | 2023-11-27 18:57:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google