要約
複数のモダリティからの情報を統合することで、自動運転車のシーン認識システムの堅牢性が強化され、より包括的で信頼性の高い感覚フレームワークが提供されます。
ただし、マルチモーダル セグメンテーションにおけるモダリティの不完全性については、まだ調査が不十分なままです。
この作業では、システム レベルのモダリティの不在とセンサー レベルのモダリティ エラーの両方を包含するモダリティ不完全シーン セグメンテーション (MISS) と呼ばれるタスクを確立します。
マルチモーダル融合における主なモダリティへの依存を回避するために、トレーニング中に欠落しているモダリティを積極的に管理する Missing-aware Modal Switch (MMS) 戦略を導入します。
ビットレベルのバッチ単位のサンプリングを利用すると、完全なテスト シナリオと不完全なテスト シナリオの両方でモデルのパフォーマンスが向上します。
さらに、フーリエ プロンプト チューニング (FPT) 手法を導入して、代表的なスペクトル情報を限られた数の学習可能なプロンプトに組み込み、すべての MISS シナリオに対する堅牢性を維持します。
エフェクトの微調整に似ていますが、調整可能なパラメーターが少なくなります (1.1%)。
広範な実験により、私たちが提案したアプローチの有効性が証明され、モダリティ欠損における従来の最先端のパラメーター効率の高い方法と比較して 5.84% mIoU の改善が示されました。
ソース コードは https://github.com/RuipingL/MISS で公開されています。
要約(オリジナル)
Integrating information from multiple modalities enhances the robustness of scene perception systems in autonomous vehicles, providing a more comprehensive and reliable sensory framework. However, the modality incompleteness in multi-modal segmentation remains under-explored. In this work, we establish a task called Modality-Incomplete Scene Segmentation (MISS), which encompasses both system-level modality absence and sensor-level modality errors. To avoid the predominant modality reliance in multi-modal fusion, we introduce a Missing-aware Modal Switch (MMS) strategy to proactively manage missing modalities during training. Utilizing bit-level batch-wise sampling enhances the model’s performance in both complete and incomplete testing scenarios. Furthermore, we introduce the Fourier Prompt Tuning (FPT) method to incorporate representative spectral information into a limited number of learnable prompts that maintain robustness against all MISS scenarios. Akin to fine-tuning effects but with fewer tunable parameters (1.1%). Extensive experiments prove the efficacy of our proposed approach, showcasing an improvement of 5.84% mIoU over the prior state-of-the-art parameter-efficient methods in modality missing. The source code is publicly available at https://github.com/RuipingL/MISS.
arxiv情報
著者 | Ruiping Liu,Jiaming Zhang,Kunyu Peng,Yufan Chen,Ke Cao,Junwei Zheng,M. Saquib Sarfraz,Kailun Yang,Rainer Stiefelhagen |
発行日 | 2024-04-11 03:01:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google