CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting

要約

動的エージェントの将来の状態を予測することは、自律運転の基本的なタスクです。
この目的の表現力のある表現は、運動、空間的範囲、およびマルチモーダルの将来の分布をモデル化するためのスケーラブルで統一された形式を提供する占有フローフィールドです。
最近の方法はこの表現を使用して強力な結果を達成しましたが、多くの場合、実際には利用できない、または生成が困難な高品質のベクトル化された入力、および計算的に集中的でコストがかかるトランスベースのアーキテクチャの使用に依存しています。
これらの問題に対処するために、\ textBf {結合畳み込みLSTM(CCLSTM)}を提案します。
CCLSTMは、ベクトル化された入力や自己関節メカニズムに依存せずに、コンパクトな再発畳み込み構造を使用して、時間的ダイナミクスと空間的占有率相関を効果的にキャプチャします。
その単純さにもかかわらず、CCLSTMは占有フローメトリックで最先端のパフォーマンスを達成し、この提出時点で、2024年のWaymo占有およびフロー予測チャレンジリーダーボードのすべてのメトリックで\(1^{\ text {st}} \)をランク付けします。

要約(オリジナル)

Predicting future states of dynamic agents is a fundamental task in autonomous driving. An expressive representation for this purpose is Occupancy Flow Fields, which provide a scalable and unified format for modeling motion, spatial extent, and multi-modal future distributions. While recent methods have achieved strong results using this representation, they often depend on high-quality vectorized inputs, which are unavailable or difficult to generate in practice, and the use of transformer-based architectures, which are computationally intensive and costly to deploy. To address these issues, we propose \textbf{Coupled Convolutional LSTM (CCLSTM)}, a lightweight, end-to-end trainable architecture based solely on convolutional operations. Without relying on vectorized inputs or self-attention mechanisms, CCLSTM effectively captures temporal dynamics and spatial occupancy-flow correlations using a compact recurrent convolutional structure. Despite its simplicity, CCLSTM achieves state-of-the-art performance on occupancy flow metrics and, as of this submission, ranks \(1^{\text{st}}\) in all metrics on the 2024 Waymo Occupancy and Flow Prediction Challenge leaderboard.

arxiv情報

著者 Peter Lengyel
発行日 2025-06-06 14:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク