Motion Perceiver: Real-Time Occupancy Forecasting for Embedded Systems

要約

本研究では、ソフトIOUのWaymo Open Motion Datasetにおいて既存の最先端モデルを凌駕する、リアルタイム占有予測用に設計された新規かつ適応可能なアーキテクチャを紹介する。提案モデルは、学習された変換器ベースの関数による再帰的潜在状態推定を用いて、状態を効果的に更新し進化させる。これにより、Nvidia Xavier AGXでプロファイルしたように、組み込みシステム上で非常に効率的なリアルタイム推論が可能になる。我々のモデルであるMotionPerceiverは、自己注意メカニズムによって時間的に進化する潜在状態にシーンをエンコードすることでこれを実現する。さらに、クロスアテンションメカニズムにより、交通信号、道路トポロジー、エージェント検出などの関連するシーン観測を組み込んでいる。これは、既存のモデルで一般的な高価な固定シーケンス入力とは対照的な、効率的なデータストリーミングアーキテクチャを形成する。このアーキテクチャはまた、潜在的に無関係な領域をレンダリングする固定サイズの占有画像を生成するのとは対照的に、関心点に基づく局所的なクエリによって占有予測を生成するという明確な利点を提供する。

要約(オリジナル)

This work introduces a novel and adaptable architecture designed for real-time occupancy forecasting that outperforms existing state-of-the-art models on the Waymo Open Motion Dataset in Soft IOU. The proposed model uses recursive latent state estimation with learned transformer-based functions to effectively update and evolve the state. This enables highly efficient real-time inference on embedded systems, as profiled on an Nvidia Xavier AGX. Our model, MotionPerceiver, achieves this by encoding a scene into a latent state that evolves in time through self-attention mechanisms. Additionally, it incorporates relevant scene observations, such as traffic signals, road topology and agent detections, through cross-attention mechanisms. This forms an efficient data-streaming architecture, that contrasts with the expensive, fixed-sequence input common in existing models. The architecture also offers the distinct advantage of generating occupancy predictions through localized querying based on a point-of-interest, as opposed to generating fixed-size occupancy images that render potentially irrelevant regions.

arxiv情報

著者 Bryce Ferenczi,Michael Burke,Tom Drummond
発行日 2024-02-02 02:09:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, I.2.10 パーマリンク