要約
セマンティックシーンの完了(SSC)は、自律運転システムで包括的な認識を達成するために不可欠です。
ただし、既存のSSCメソッドは、多くの場合、実際のアプリケーションで高い展開コストを見落としています。
3D畳み込みニューラルネットワーク(3D CNNS)や自己関節メカニズムなどの従来のアーキテクチャは、3Dボクセルグリッド内の長距離依存関係を効率的にキャプチャする際の課題に直面し、その効果を制限します。
これらの問題に対処するために、変形可能な畳み込み、大型型の注意、およびMAMBA(D-LKA-M)モデルを活用するSSCの新しいメタラーニングベースのフレームワークであるMetasccを紹介します。
私たちのアプローチは、譲渡可能なメタ知識を取得しながら、不完全な領域のセマンティクスとジオメトリを調査することを目的とした、ボクセルベースのセマンティックセグメンテーション(SS)事前削除タスクから始まります。
シミュレートされた協調性認識データセットを使用して、複数の近くの接続された自律車両(Cavs)からの集約されたセンサーデータを使用して、単一の車両の認識トレーニングを監督し、より豊かで包括的なラベルを生成します。
このメタ知識は、追加のモデルパラメーターを追加せず、効率的な展開を可能にするデュアルフェーズトレーニング戦略を通じてターゲットドメインに適合します。
3Dボクセルグリッド内の長いシーケンス関係をキャプチャするモデルの能力をさらに強化するために、Mambaブロックを変形可能な畳み込みと大型型の注意をバックボーンネットワークに統合します。
大規模な実験は、Metasscが最先端のパフォーマンスを達成し、競合するモデルを大幅に上回り、展開コストも削減することを示しています。
要約(オリジナル)
Semantic scene completion (SSC) is essential for achieving comprehensive perception in autonomous driving systems. However, existing SSC methods often overlook the high deployment costs in real-world applications. Traditional architectures, such as 3D Convolutional Neural Networks (3D CNNs) and self-attention mechanisms, face challenges in efficiently capturing long-range dependencies within 3D voxel grids, limiting their effectiveness. To address these issues, we introduce MetaSSC, a novel meta-learning-based framework for SSC that leverages deformable convolution, large-kernel attention, and the Mamba (D-LKA-M) model. Our approach begins with a voxel-based semantic segmentation (SS) pretraining task, aimed at exploring the semantics and geometry of incomplete regions while acquiring transferable meta-knowledge. Using simulated cooperative perception datasets, we supervise the perception training of a single vehicle using aggregated sensor data from multiple nearby connected autonomous vehicles (CAVs), generating richer and more comprehensive labels. This meta-knowledge is then adapted to the target domain through a dual-phase training strategy that does not add extra model parameters, enabling efficient deployment. To further enhance the model’s capability in capturing long-sequence relationships within 3D voxel grids, we integrate Mamba blocks with deformable convolution and large-kernel attention into the backbone network. Extensive experiments demonstrate that MetaSSC achieves state-of-the-art performance, significantly outperforming competing models while also reducing deployment costs.
arxiv情報
著者 | Yansong Qu,Zixuan Xu,Zilin Huang,Zihao Sheng,Tiantian Chen,Sikai Chen |
発行日 | 2025-02-19 17:21:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google