要約
非常に動的な環境での自動運転では、周囲の車両 (SV) の将来の動作を予測し、安全かつ効果的な意思決定を行うことが期待されています。
ただし、予測モジュールと意思決定モジュールの間の固有の結合効果をモデル化することは、特に適切な計算効率を維持する必要がある場合に長年の課題でした。
これらの問題に取り組むために、我々は、結合関係を明示的にモデル化し、効率的な計算を達成する、新しい統合された意図予測と意思決定アプローチを提案します。
具体的には、スペクトル アテンション ネットは、時間の経過に伴う各周波数成分の傾向とそれらの相互関係を捕捉することで、SV の意図を予測するように設計されています。
予測された意図は実行プロセスで軌跡にデコードされないため、意図予測モジュールの高速計算が達成されます。
さらに、近位ポリシー最適化 (PPO) アルゴリズムは、目的関数内のクリッピング メカニズムによって可能になる適度なポリシー更新を通じてフレームワーク内の非定常問題に対処するために採用されています。
これらの開発に基づいて、意図予測モジュールと意思決定モジュールが共同学習を通じて統合されます。
実験は代表的な交通シナリオで実施され、その結果、提案された統合フレームワークが、運転タスクの成功率、効率、安全性の点で、いくつかの深層強化学習(DRL)ベースラインよりも優れたパフォーマンスを示していることが明らかになりました。
要約(オリジナル)
For autonomous driving in highly dynamic environments, it is anticipated to predict the future behaviors of surrounding vehicles (SVs) and make safe and effective decisions. However, modeling the inherent coupling effect between the prediction and decision-making modules has been a long-standing challenge, especially when there is a need to maintain appropriate computational efficiency. To tackle these problems, we propose a novel integrated intention prediction and decision-making approach, which explicitly models the coupling relationship and achieves efficient computation. Specifically, a spectrum attention net is designed to predict the intentions of SVs by capturing the trends of each frequency component over time and their interrelations. Fast computation of the intention prediction module is attained as the predicted intentions are not decoded to trajectories in the executing process. Furthermore, the proximal policy optimization (PPO) algorithm is employed to address the non-stationary problem in the framework through a modest policy update enabled by a clipping mechanism within its objective function. On the basis of these developments, the intention prediction and decision-making modules are integrated through joint learning. Experiments are conducted in representative traffic scenarios, and the results reveal that the proposed integrated framework demonstrates superior performance over several deep reinforcement learning (DRL) baselines in terms of success rate, efficiency, and safety in driving tasks.
arxiv情報
著者 | Xiao Zhou,Chengzhen Meng,Wenru Liu,Zengqi Peng,Ming Liu,Jun Ma |
発行日 | 2024-08-06 13:43:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google