Condition-Invariant Semantic Segmentation

要約

自動運転車やロボットの堅牢な知覚には、セマンティック セグメンテーション ネットワークをさまざまな視覚条件に適応させることが不可欠です。
しかし、これまでの研究では、敵対的トレーニングを採用し、合成から現実への適応で検証されているほとんどの特徴レベルの適応方法は、条件レベルの適応においてわずかな利益を提供し、様式化による単純なピクセルレベルの適応よりも優れたパフォーマンスを発揮することが示されています。
これらの発見に動機付けられて、ネットワークのエンコーダーによってオリジナルから抽出された内部ネットワーク特徴と、新しい特徴不変性損失を備えた各入力画像の様式化されたビューを調整することにより、特徴レベルの適応を実行する際に様式化を活用することを提案します。
このようにして、エンコーダーが入力のスタイルに対してすでに不変である特徴を抽出することを奨励し、デコーダーが入力の特定のスタイルからさらに抽象化するのではなく、これらの特徴の解析に集中できるようにします。
私たちは、Condition-Invariant Semantic Segmentation (CISS) と呼ばれるメソッドを現在の最先端のドメイン適応アーキテクチャに実装し、条件レベルの適応において優れた結果を達成しています。
特に、CISS は、人気のある昼から夜までの Cityscapes$\to$Dark Zurich ベンチマークにおいて、新たな最先端技術を確立しています。
さらに、私たちの手法は、順方向から逆方向の Cityscapes$\to$ACDC ベンチマークで 2 番目に優れたパフォーマンスを達成します。
CISS は、BDD100K-night や ACDC-night など、トレーニング中には表示されないドメインによく一般化することが示されています。
コードは https://github.com/SysCV/CISS で公開されています。

要約(オリジナル)

Adaptation of semantic segmentation networks to different visual conditions is vital for robust perception in autonomous cars and robots. However, previous work has shown that most feature-level adaptation methods, which employ adversarial training and are validated on synthetic-to-real adaptation, provide marginal gains in condition-level adaptation, being outperformed by simple pixel-level adaptation via stylization. Motivated by these findings, we propose to leverage stylization in performing feature-level adaptation by aligning the internal network features extracted by the encoder of the network from the original and the stylized view of each input image with a novel feature invariance loss. In this way, we encourage the encoder to extract features that are already invariant to the style of the input, allowing the decoder to focus on parsing these features and not on further abstracting from the specific style of the input. We implement our method, named Condition-Invariant Semantic Segmentation (CISS), on the current state-of-the-art domain adaptation architecture and achieve outstanding results on condition-level adaptation. In particular, CISS sets the new state of the art in the popular daytime-to-nighttime Cityscapes$\to$Dark Zurich benchmark. Furthermore, our method achieves the second-best performance on the normal-to-adverse Cityscapes$\to$ACDC benchmark. CISS is shown to generalize well to domains unseen during training, such as BDD100K-night and ACDC-night. Code is publicly available at https://github.com/SysCV/CISS .

arxiv情報

著者 Christos Sakaridis,David Bruggemann,Fisher Yu,Luc Van Gool
発行日 2024-07-22 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク