Phrase Grounding-based Style Transfer for Single-Domain Generalized Object Detection

要約

単一ドメイン汎化物体検出は、学習時に単一のソースドメインからのデータのみを使用して、複数の未知のターゲットドメインに対するモデルの汎化性を向上させることを目的としている。これは、ターゲットドメインのデータを訓練に組み込むことなく、ドメインシフトに対応するモデルを必要とするため、実用的ではあるが困難な課題である。本論文では、この課題に対して、フレーズグラウンディングに基づくスタイル変換(PGST)アプローチを提案する。具体的には、まず、未知の各ターゲットドメインの潜在的な対象を記述するテキストプロンプトを定義する。次に、接地言語画像事前学習(GLIP)モデルを活用して、これらのターゲットドメインのスタイルを学習し、ソースからターゲットドメインへのスタイル転送を実現する。スタイル変換されたソースの視覚的特徴は意味的に豊かであり、ターゲットドメインにおける想像上の対応物に近い可能性がある。最後に、これらのスタイル変換された視覚的特徴を用いてGLIPを微調整する。想像上の対応関係を導入することで、学習用の単一のソースドメインのみを使用して、検出器を未知のターゲットドメインに効果的に汎化することができる。5つの多様な天候運転ベンチマークに対する広範な実験結果は、我々の提案アプローチが最先端の性能を達成し、訓練プロセスにターゲットドメインの画像を組み込んだいくつかのドメイン適応的手法を凌ぐことさえ実証している。

要約(オリジナル)

Single-domain generalized object detection aims to enhance a model’s generalizability to multiple unseen target domains using only data from a single source domain during training. This is a practical yet challenging task as it requires the model to address domain shift without incorporating target domain data into training. In this paper, we propose a novel phrase grounding-based style transfer (PGST) approach for the task. Specifically, we first define textual prompts to describe potential objects for each unseen target domain. Then, we leverage the grounded language-image pre-training (GLIP) model to learn the style of these target domains and achieve style transfer from the source to the target domain. The style-transferred source visual features are semantically rich and could be close to imaginary counterparts in the target domain. Finally, we employ these style-transferred visual features to fine-tune GLIP. By introducing imaginary counterparts, the detector could be effectively generalized to unseen target domains using only a single source domain for training. Extensive experimental results on five diverse weather driving benchmarks demonstrate our proposed approach achieves state-of-the-art performance, even surpassing some domain adaptive methods that incorporate target domain images into the training process.The source codes and pre-trained models will be made available.

arxiv情報

著者 Hao Li,Wei Wang,Cong Wang,Zhigang Luo,Xinwang Liu,Kenli Li,Xiaochun Cao
発行日 2024-02-05 03:04:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク