HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation

要約

イベントベースのセマンティック セグメンテーションは、従来の RGB カメラでは対応できない高速動作や極端な照明条件下でのシナリオに対処できるため、人気が高まっています。
イベント データに注釈を付けるのは難しいため、これまでのアプローチはイベントから画像への再構成に依存してトレーニング用の疑似ラベルを取得していました。
ただし、これにより必然的にノイズが発生し、特に単一のソースから生成された場合、ノイズの多い擬似ラベルから学習すると、エラーが強化される可能性があります。
この欠点は、擬似ラベリングにおける確証バイアスとも呼ばれます。
この論文では、ノイズの多い擬似ラベルの影響を軽減するために、教師なしイベントベースのセマンティック セグメンテーション用の新しいハイブリッド擬似ラベル付けフレームワークである HPL-ESS を提案します。
具体的には、まず、単純な教師なしドメイン適応フレームワークをベースラインとして採用します。これにより、自己学習を通じて一連の疑似ラベルを生成できます。
次に、オフラインのイベントから画像への再構成をフレームワークに組み込み、再構成された画像上のセグメンテーション マップを予測することによって別の疑似ラベルのセットを取得します。
ノイズの多いラベル学習戦略は、2 セットの疑似ラベルを混合して品質を向上させるように設計されています。
さらに、ターゲットドメインの特徴の一貫性をさらに向上させるために、ソフトプロトタイプアライメントモジュールを提案します。
広範な実験により、私たちが提案した手法は、DSEC-Semantic データセットで既存の最先端の手法を大幅に上回り (精度 +5.88%、mIoU +10.32%)、いくつかの教師あり手法をも上回っていることが示されています。

要約(オリジナル)

Event-based semantic segmentation has gained popularity due to its capability to deal with scenarios under high-speed motion and extreme lighting conditions, which cannot be addressed by conventional RGB cameras. Since it is hard to annotate event data, previous approaches rely on event-to-image reconstruction to obtain pseudo labels for training. However, this will inevitably introduce noise, and learning from noisy pseudo labels, especially when generated from a single source, may reinforce the errors. This drawback is also called confirmation bias in pseudo-labeling. In this paper, we propose a novel hybrid pseudo-labeling framework for unsupervised event-based semantic segmentation, HPL-ESS, to alleviate the influence of noisy pseudo labels. In particular, we first employ a plain unsupervised domain adaptation framework as our baseline, which can generate a set of pseudo labels through self-training. Then, we incorporate offline event-to-image reconstruction into the framework, and obtain another set of pseudo labels by predicting segmentation maps on the reconstructed images. A noisy label learning strategy is designed to mix the two sets of pseudo labels and enhance the quality. Moreover, we propose a soft prototypical alignment module to further improve the consistency of target domain features. Extensive experiments show that our proposed method outperforms existing state-of-the-art methods by a large margin on the DSEC-Semantic dataset (+5.88% accuracy, +10.32% mIoU), which even surpasses several supervised methods.

arxiv情報

著者 Linglin Jing,Yiming Ding,Yunpeng Gao,Zhigang Wang,Xu Yan,Dong Wang,Gerald Schaefer,Hui Fang,Bin Zhao,Xuelong Li
発行日 2024-03-25 14:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク