要約
エンドツーエンドの自動運転は、前面カメラからの生ピクセルを制御信号に直接マッピングすることにより、全体的な駆動システムのパフォーマンスを自動的に最大化する実現可能な方法を提供します。
最近の高度な手法は、高次元の観測結果をコンパクトな潜在空間にマッピングするための潜在世界モデルを構築します。
しかし、以前の研究で提案されたワールドモデルによって埋め込まれた潜在状態には、タスクに無関係な大量の情報が含まれている可能性があり、その結果、サンプリング効率が低く、入力摂動に対するロバスト性が低くなります。
一方、トレーニング データの分布は通常不均衡であり、学習されたポリシーは運転プロセス中の特殊なケースに対処するのが困難です。
上記の課題を解決するために、SEMantic Masked Recurrent World Model (SEM2) を紹介します。これは、主要な運転関連の特徴を抽出し、フィルターされた特徴を通じて意思決定を行うためのセマンティック フィルターを導入し、マルチソース データ サンプラーでトレーニングされます。
一般的なデータと複数の特殊なデータを 1 つのバッチに集約して、データ分散のバランスをとります。
CARLA に関する広範な実験により、サンプル効率と入力順列に対する堅牢性の点で、私たちの方法が最先端のアプローチよりも優れていることが示されています。
要約(オリジナル)
End-to-end autonomous driving provides a feasible way to automatically maximize overall driving system performance by directly mapping the raw pixels from a front-facing camera to control signals. Recent advanced methods construct a latent world model to map the high dimensional observations into compact latent space. However, the latent states embedded by the world model proposed in previous works may contain a large amount of task-irrelevant information, resulting in low sampling efficiency and poor robustness to input perturbations. Meanwhile, the training data distribution is usually unbalanced, and the learned policy is challenging to cope with the corner cases during the driving process. To solve the above challenges, we present a SEMantic Masked recurrent world model (SEM2), which introduces a semantic filter to extract key driving-relevant features and make decisions via the filtered features, and is trained with a multi-source data sampler, which aggregates common data and multiple corner case data in a single batch, to balance the data distribution. Extensive experiments on CARLA show our method outperforms the state-of-the-art approaches in terms of sample efficiency and robustness to input permutations.
arxiv情報
著者 | Zeyu Gao,Yao Mu,Chen Chen,Jingliang Duan,Shengbo Eben Li,Ping Luo,Yanfeng Lu |
発行日 | 2024-05-09 15:32:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google