要約
この取り組みでは、リアルタイムの占有予測のための柔軟なアーキテクチャを導入しています。
既存のより計算コストのかかるアーキテクチャとは対照的に、提案されたモデルは、学習されたトランスフォーマーベースの予測および更新モジュールを使用して、再帰的な潜在状態推定を利用します。
これにより、組み込みシステム (Nvidia Xavier AGX でプロファイリング) 上で高効率のリアルタイム推論が可能になり、さまざまなセンサーのセットからの広範な情報セットを含めることができます。
このアーキテクチャは、エージェントの位置とシーン コンテキストのまばらで遮蔽された観察を利用できるように処理することができ、モーション トラックレット入力を必要としません。
\networkName{} は、セルフ アテンションに合わせて進化する潜在状態にシーンをエンコードすることでこれを実現し、信号、道路トポロジ、クロス アテンションを使用したエージェント検出などのコンテキスト情報で更新されます。
占有予測は、固定サイズのラスター イメージを生成するのではなく、関心のある位置をまばらにクエリすることによって行われます。これにより、下流の軌道最適化アルゴリズムによる可変解像度の占有予測やローカル クエリが可能になり、計算量が節約されます。
要約(オリジナル)
This work introduces a flexible architecture for real-time occupancy forecasting. In contrast to existing, more computationally expensive architectures, the proposed model exploits recursive latent state estimation, using learned transformer-based prediction and update modules. This allows for highly efficient real-time inference on an embedded system (profiled on an Nvidia Xavier AGX), and the inclusion of a broad set of information from a diverse set of sensors. The architecture is able to process sparse and occluded observations of agent positions and scene context as this is made available, and does not require motion tracklet inputs. \networkName{} accomplishes this by encoding the scene into a latent state that evolves in time with self-attention and is updated with contextual information such as traffic signals, road topology or agent detections using cross-attention. Occupancy predictions are made by sparsely querying positions of interest as opposed to generating a fixed size raster image, which allows for variable resolution occupancy prediction or local querying by downstream trajectory optimisation algorithms, saving computational effort.
arxiv情報
著者 | Bryce Ferenczi,Michael Burke,Tom Drummond |
発行日 | 2023-06-15 06:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google