KARNet: Kalman Filter Augmented Recurrent Neural Network for Learning World Models in Autonomous Driving Tasks

要約

自動運転は自動車業界で大きな注目を集めており、交通の未来として見られることがよくあります。
自動運転技術の開発は、エンドツーエンドの機械学習技術の成長によって大幅に加速され、認識、計画、制御タスクに使用されて成功しています。
自動運転計画の重要な側面は、環境が近い将来にどのように進化するかを知り、適切な措置を講じることです。
自動運転システムは、状況認識を維持するために、さまざまなセンサーから収集した情報を効果的に使用して世界の抽象的な表現を形成する必要があります。
この目的のために、深層学習モデルを使用して、受信データのストリームからコンパクトな潜在表現を学習できます。
ただし、ほとんどの深層学習モデルはエンドツーエンドでトレーニングされ、車両に関する事前知識 (物理学など) をアーキテクチャに組み込んでいません。
この方向で、多くの研究が、トレーニング中に物理モデルを注入するための物理注入ニューラル ネットワーク (PINN) アーキテクチャを検討してきました。
この観察に触発されて、フロント カメラ画像のみを使用してトラフィック フローの潜在的な表現を学習するためのカルマン フィルター拡張リカレント ニューラル ネットワーク アーキテクチャを提案します。
シミュレートされたデータセットと現実世界のデータセットの両方を使用して、模倣学習設定と強化学習設定の両方で提案されたモデルの有効性を実証します。
結果は、車両の明示的モデル (カルマン フィルターを使用して推定された状態) をエンドツーエンド学習に組み込むと、パフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Autonomous driving has received a great deal of attention in the automotive industry and is often seen as the future of transportation. The development of autonomous driving technology has been greatly accelerated by the growth of end-to-end machine learning techniques that have been successfully used for perception, planning, and control tasks. An important aspect of autonomous driving planning is knowing how the environment evolves in the immediate future and taking appropriate actions. An autonomous driving system should effectively use the information collected from the various sensors to form an abstract representation of the world to maintain situational awareness. For this purpose, deep learning models can be used to learn compact latent representations from a stream of incoming data. However, most deep learning models are trained end-to-end and do not incorporate any prior knowledge (e.g., from physics) of the vehicle in the architecture. In this direction, many works have explored physics-infused neural network (PINN) architectures to infuse physics models during training. Inspired by this observation, we present a Kalman filter augmented recurrent neural network architecture to learn the latent representation of the traffic flow using front camera images only. We demonstrate the efficacy of the proposed model in both imitation and reinforcement learning settings using both simulated and real-world datasets. The results show that incorporating an explicit model of the vehicle (states estimated using Kalman filtering) in the end-to-end learning significantly increases performance.

arxiv情報

著者 Hemanth Manjunatha,Andrey Pak,Dimitar Filev,Panagiotis Tsiotras
発行日 2023-05-24 02:27:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク