LEAP: Enhancing Vision-Based Occupancy Networks with Lightweight Spatio-Temporal Correlation

要約

ビジョンベースの占有ネットワークは、マルチビュー画像に由来するセマンティック占有ボクセルを使用して、周囲の環境を再構築するためのエンドツーエンドソリューションを提供します。
この手法は、ピクセルレベルの視覚情報とボクセルの間の相関関係を効果的に学習することに依存しています。
最近の進歩にもかかわらず、占有の結果は、閉塞とまばらな視覚的な手がかりのために依然として限られた精度に苦しんでいます。
これに対処するために、最小限の計算オーバーヘッドで既存の占有ネットワークのパフォーマンスを大幅に向上させる、軽量の時空間相関(LEAP)}メソッドを提案します。
LEAPは、さまざまなベースラインネットワークにシームレスに統合され、プラグアンドプレイアプリケーションを可能にします。
LEAPは3つの段階で動作します。1)最近のベースラインおよびモーション機能からの情報を共有されたコンパクトな潜在スペースにトークン化します。
2)トライストリーム融合アーキテクチャを介して完全な相関を確立します。
3)ベースラインの出力を強化する占有率を生成します。
広範な実験は、最新のベースラインモデルを上回る方法の効率と有効性を示しています。
ソースコードといくつかのデモは、補足資料で利用できます。

要約(オリジナル)

Vision-based occupancy networks provide an end-to-end solution for reconstructing the surrounding environment using semantic occupied voxels derived from multi-view images. This technique relies on effectively learning the correlation between pixel-level visual information and voxels. Despite recent advancements, occupancy results still suffer from limited accuracy due to occlusions and sparse visual cues. To address this, we propose a Lightweight Spatio-Temporal Correlation (LEAP)} method, which significantly enhances the performance of existing occupancy networks with minimal computational overhead. LEAP can be seamlessly integrated into various baseline networks, enabling a plug-and-play application. LEAP operates in three stages: 1) it tokenizes information from recent baseline and motion features into a shared, compact latent space; 2) it establishes full correlation through a tri-stream fusion architecture; 3) it generates occupancy results that strengthen the baseline’s output. Extensive experiments demonstrate the efficiency and effectiveness of our method, outperforming the latest baseline models. The source code and several demos are available in the supplementary material.

arxiv情報

著者 Fengcheng Yu,Haoran Xu,Canming Xia,Guang Tan
発行日 2025-02-21 13:07:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク