要約
トレーニング中には見られなかった新しいドメインへの一般化は、現実世界のアプリケーションにニューラル ネットワークを展開する際の長年の目標および課題の 1 つです。
既存の一般化手法では、外部データセットから調達される可能性のある大幅なデータの拡張が必要であり、さまざまな位置合わせ制約を課すことによって不変表現を学習することを目的としています。
最近、大規模な事前トレーニングは、さまざまなモダリティの橋渡しとなる可能性とともに、有望な一般化機能を示しています。
たとえば、CLIP のようなビジョン言語モデルの最近の出現により、ビジョン モデルがテキスト モダリティを活用するための扉が開かれました。
この論文では、ランダム化のソースとして言語を使用してセマンティック セグメンテーション ネットワークを一般化するための単純なフレームワークを紹介します。
私たちのレシピは 3 つの重要な要素で構成されています。i) 最小限の微調整による固有の CLIP 堅牢性の維持、ii) 言語駆動のローカル スタイルの拡張、および iii) トレーニング中にソース スタイルと拡張スタイルをローカルで混合することによるランダム化です。
広範な実験により、さまざまな一般化ベンチマークに関する最先端の結果が報告されています。
コードが利用可能になります。
要約(オリジナル)
Generalization to new domains not seen during training is one of the long-standing goals and challenges in deploying neural networks in real-world applications. Existing generalization techniques necessitate substantial data augmentation, potentially sourced from external datasets, and aim at learning invariant representations by imposing various alignment constraints. Large-scale pretraining has recently shown promising generalization capabilities, along with the potential of bridging different modalities. For instance, the recent advent of vision-language models like CLIP has opened the doorway for vision models to exploit the textual modality. In this paper, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: i) the preservation of the intrinsic CLIP robustness through minimal fine-tuning, ii) language-driven local style augmentation, and iii) randomization by locally mixing the source and augmented styles during training. Extensive experiments report state-of-the-art results on various generalization benchmarks. The code will be made available.
arxiv情報
著者 | Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette |
発行日 | 2023-11-29 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google