Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection

要約

単一のドメインでトレーニングされたオブジェクト検出器を複数の目に見えないドメインに一般化することは、困難なタスクです。
既存の方法は通常、イメージまたは機能の増強を導入して、ソースドメインを多様化して検出器の堅牢性を高めます。
Vision-Language Model(VLM)ベースの増強技術は効果的であることが証明されていますが、検出器のバックボーンがVLMの画像エンコーダーと同じ構造を持つ必要があり、検出器フレームワークの選択が制限されます。
この問題に対処するために、単一ドメイン一般化のための言語主導のデュアルスタイルミキシング(LDDS)を提案します。これは、VLMのセマンティック情報を完全に利用することでソースドメインを多様化します。
具体的には、VLMに埋め込まれたスタイルセマンティクスを画像翻訳ネットワークに転送するためのプロンプトを最初に構築します。
これにより、明示的なセマンティック情報を使用して、スタイルの多様化された画像の生成が容易になります。
次に、多様化した画像とソースドメイン画像の間の画像レベルのスタイルの混合を提案します。
これにより、特定の増強選択に依存することなく、画像増強のセマンティック情報を効果的に採掘します。
最後に、ダブルパイプラインの方法で機能レベルのスタイルのミキシングを提案し、機能の増強がモデルに依存しないことを可能にし、1段、2段、トランスベースの検出器を含む主流の検出器フレームワークとシームレスに動作することができます。
広範な実験は、漫画から普通の気象課題を含む、さまざまなベンチマークデータセットにわたるアプローチの有効性を示しています。
ソースコードと事前に訓練されたモデルは、https://github.com/qinhongda8/lddsで公開されます。

要約(オリジナル)

Generalizing an object detector trained on a single domain to multiple unseen domains is a challenging task. Existing methods typically introduce image or feature augmentation to diversify the source domain to raise the robustness of the detector. Vision-Language Model (VLM)-based augmentation techniques have been proven to be effective, but they require that the detector’s backbone has the same structure as the image encoder of VLM, limiting the detector framework selection. To address this problem, we propose Language-Driven Dual Style Mixing (LDDS) for single-domain generalization, which diversifies the source domain by fully utilizing the semantic information of the VLM. Specifically, we first construct prompts to transfer style semantics embedded in the VLM to an image translation network. This facilitates the generation of style diversified images with explicit semantic information. Then, we propose image-level style mixing between the diversified images and source domain images. This effectively mines the semantic information for image augmentation without relying on specific augmentation selections. Finally, we propose feature-level style mixing in a double-pipeline manner, allowing feature augmentation to be model-agnostic and can work seamlessly with the mainstream detector frameworks, including the one-stage, two-stage, and transformer-based detectors. Extensive experiments demonstrate the effectiveness of our approach across various benchmark datasets, including real to cartoon and normal to adverse weather tasks. The source code and pre-trained models will be publicly available at https://github.com/qinhongda8/LDDS.

arxiv情報

著者 Hongda Qin,Xiao Lu,Zhiyong Wei,Yihong Cao,Kailun Yang,Ningjiang Chen
発行日 2025-05-12 04:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク