Temporal Triplane Transformers as Occupancy World Models

要約

近年、世界モデルに大きな進歩が見られます。これは、主にエージェントの運動軌跡と周囲の環境の結果として生じる変化との間の細かい相関を学習することに焦点を当てています。
ただし、既存の方法は、このような細かい相関をキャプチャし、リアルタイムの予測を達成するのに苦労することがよくあります。
これに対処するために、T $^3 $以前と呼ばれる自動運転の新しい4D占有世界モデルを提案します。
T $^3 $前者は、3Dセマンティックで占有された環境を効率的に圧縮するコンパクトなトリプレーン表現を事前に訓練することから始まります。
次に、t $^3 $以前の抽出物は、歴史的なトリプレーンからのマルチスケールの時間運動機能を抽出し、次のトリプレーンの変化を繰り返し予測するために自己回帰的アプローチを採用しています。
最後に、t $^3 $の前者は、トリプレーンの変化と以前の変化を組み合わせて、それらを将来の占有率と自我モーションの軌跡にデコードします。
実験結果は、T $^3 $の優位性を示しており、1.44 $ \ Times $の速い推論速度(26 fps)を達成し、平均IOUを36.09に改善し、平均絶対計画誤差を1.0メートルに減らします。

要約(オリジナル)

Recent years have seen significant advances in world models, which primarily focus on learning fine-grained correlations between an agent’s motion trajectory and the resulting changes in its surrounding environment. However, existing methods often struggle to capture such fine-grained correlations and achieve real-time predictions. To address this, we propose a new 4D occupancy world model for autonomous driving, termed T$^3$Former. T$^3$Former begins by pre-training a compact triplane representation that efficiently compresses the 3D semantically occupied environment. Next, T$^3$Former extracts multi-scale temporal motion features from the historical triplane and employs an autoregressive approach to iteratively predict the next triplane changes. Finally, T$^3$Former combines the triplane changes with the previous ones to decode them into future occupancy results and ego-motion trajectories. Experimental results demonstrate the superiority of T$^3$Former, achieving 1.44$\times$ faster inference speed (26 FPS), while improving the mean IoU to 36.09 and reducing the mean absolute planning error to 1.0 meters.

arxiv情報

著者 Haoran Xu,Peixi Peng,Guang Tan,Yiqian Chang,Yisen Zhao,Yonghong Tian
発行日 2025-03-10 13:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク