要約
タイトル:セミ・スーパーバイズ・マルチ・モーダル・セマンティック・セグメンテーションにおける欠損モダリティの頑健性の欠如
要約:
– 複数の空間的モダリティを使用すると、セマンティック・セグメンテーションのパフォーマンスが向上することが証明されている。
– しかし、ラベルの効率性の向上と、テスト時にモダリティが欠損した現実的なシナリオでの頑健性の向上など、いくつかの現実の課題がまだ解決されていない。
– これらの課題に対処するために、まず簡単で効率的なマルチモーダル融合メカニズムである「線形融合」を提案する。これは、限られた監視下であっても現在のマルチモーダルモデルよりも優れたパフォーマンスを発揮する。
– 二番目に、我々はマスクされたモダリティ学習のためのマルチモーダル教師であるM3Lを提案する。これは、セミ・スーパーバイズのフレームワークであり、マルチモーダルのパフォーマンスを向上させ、無ラベルのデータを使用してモデルを現実的な欠損モダリティのシナリオに対して頑健にする。
– 我々は、セミ・スーパーバイズのマルチ・モーダル・セマンティック・セグメンテーションの初めてのベンチマークを作成し、欠損モダリティに対する頑健性も報告している。
– 私たちの提案は、最も競争力のあるベースラインよりも最大10%の頑健mIoUを示した。
– 私たちのコードは、https://github.com/harshm121/M3Lにて入手できる。
要約(オリジナル)
Using multiple spatial modalities has been proven helpful in improving semantic segmentation performance. However, there are several real-world challenges that have yet to be addressed: (a) improving label efficiency and (b) enhancing robustness in realistic scenarios where modalities are missing at the test time. To address these challenges, we first propose a simple yet efficient multi-modal fusion mechanism Linear Fusion, that performs better than the state-of-the-art multi-modal models even with limited supervision. Second, we propose M3L: Multi-modal Teacher for Masked Modality Learning, a semi-supervised framework that not only improves the multi-modal performance but also makes the model robust to the realistic missing modality scenario using unlabeled data. We create the first benchmark for semi-supervised multi-modal semantic segmentation and also report the robustness to missing modalities. Our proposal shows an absolute improvement of up to 10% on robust mIoU above the most competitive baselines. Our code is available at https://github.com/harshm121/M3L
arxiv情報
著者 | Harsh Maheshwari,Yen-Cheng Liu,Zsolt Kira |
発行日 | 2023-04-21 05:52:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI