A Simple Recipe for Language-guided Domain Generalized Segmentation

要約

トレーニング中には見ら​​れなかった新しいドメインへの一般化は、現実世界のアプリケーションにニューラル ネットワークを展開する際の長年の課題の 1 つです。
既存の一般化手法は、拡張のために外部画像を必要とするか、さまざまな位置合わせ制約を課すことによって不変表現を学習することを目的としています。
最近、大規模な事前トレーニングは、さまざまなモダリティを結び付ける可能性とともに、有望な一般化機能を示しています。
たとえば、CLIP のようなビジョン言語モデルの出現により、ビジョン モデルがテキスト モダリティを活用するための道が開かれました。
この論文では、ランダム化のソースとして言語を使用してセマンティック セグメンテーション ネットワークを一般化するための単純なフレームワークを紹介します。
私たちのレシピは 3 つの重要な要素で構成されています: (i) 最小限の微調整による固有の CLIP 堅牢性の維持、(ii) 言語駆動のローカル スタイルの拡張、および (iii) トレーニング中にソース スタイルと拡張スタイルをローカルで混合することによるランダム化。
広範な実験により、さまざまな一般化ベンチマークに関する最先端の結果が報告されています。
コードは https://github.com/astra-vision/FAMix からアクセスできます。

要約(オリジナル)

Generalization to new domains not seen during training is one of the long-standing challenges in deploying neural networks in real-world applications. Existing generalization techniques either necessitate external images for augmentation, and/or aim at learning invariant representations by imposing various alignment constraints. Large-scale pretraining has recently shown promising generalization capabilities, along with the potential of binding different modalities. For instance, the advent of vision-language models like CLIP has opened the doorway for vision models to exploit the textual modality. In this paper, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: (i) the preservation of the intrinsic CLIP robustness through minimal fine-tuning, (ii) language-driven local style augmentation, and (iii) randomization by locally mixing the source and augmented styles during training. Extensive experiments report state-of-the-art results on various generalization benchmarks. Code is accessible at https://github.com/astra-vision/FAMix .

arxiv情報

著者 Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette
発行日 2024-04-02 15:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク