A Simple Recipe for Language-guided Domain Generalized Segmentation


トレーニング中には見ら​​れなかった新しいドメインへの一般化は、現実世界のアプリケーションにニューラル ネットワークを展開する際の長年の目標および課題の 1 つです。
たとえば、CLIP のようなビジョン言語モデルの最近の出現により、ビジョン モデルがテキスト モダリティを活用するための扉が開かれました。
この論文では、ランダム化のソースとして言語を使用してセマンティック セグメンテーション ネットワークを一般化するための単純なフレームワークを紹介します。
私たちのレシピは 3 つの重要な要素で構成されています。i) 最小限の微調整による固有の CLIP 堅牢性の維持、ii) 言語駆動のローカル スタイルの拡張、および iii) トレーニング中にソース スタイルと拡張スタイルをローカルで混合することによるランダム化です。


Generalization to new domains not seen during training is one of the long-standing goals and challenges in deploying neural networks in real-world applications. Existing generalization techniques necessitate substantial data augmentation, potentially sourced from external datasets, and aim at learning invariant representations by imposing various alignment constraints. Large-scale pretraining has recently shown promising generalization capabilities, along with the potential of bridging different modalities. For instance, the recent advent of vision-language models like CLIP has opened the doorway for vision models to exploit the textual modality. In this paper, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: i) the preservation of the intrinsic CLIP robustness through minimal fine-tuning, ii) language-driven local style augmentation, and iii) randomization by locally mixing the source and augmented styles during training. Extensive experiments report state-of-the-art results on various generalization benchmarks. The code will be made available.


著者 Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette
発行日 2023-11-29 18:59:59+00:00
