CLIP the Gap: A Single Domain Generalization Approach for Object Detection

要約

単一領域汎化(SDG)は、単一のソース領域でモデルを学習し、それが未見のターゲット領域にも汎化する問題に取り組む。これは画像分類ではよく研究されているが、SDGによる物体検出に関する文献はほとんど存在しない。ロバストな物体定位と表現を同時に学習するという課題に対処するために、我々は、事前に学習された視覚言語モデルを活用して、テキストプロンプトによって意味的なドメイン概念を導入することを提案する。これは、テキストベースの分類損失と同様に、検出器バックボーンによって抽出された特徴に作用する意味補強戦略によって達成される。我々の実験では、既存の唯一のSDGオブジェクト検出手法であるSingle-DGOD [49]を、彼らの多様な天候運転ベンチマークで10%上回る性能を示し、我々のアプローチの利点を証明した。

要約(オリジナル)

Single Domain Generalization (SDG) tackles the problem of training a model on a single source domain so that it generalizes to any unseen target domain. While this has been well studied for image classification, the literature on SDG object detection remains almost non-existent. To address the challenges of simultaneously learning robust object localization and representation, we propose to leverage a pre-trained vision-language model to introduce semantic domain concepts via textual prompts. We achieve this via a semantic augmentation strategy acting on the features extracted by the detector backbone, as well as a text-based classification loss. Our experiments evidence the benefits of our approach, outperforming by 10% the only existing SDG object detection method, Single-DGOD [49], on their own diverse weather-driving benchmark.

arxiv情報

著者 Vidit Vidit,Martin Engilberge,Mathieu Salzmann
発行日 2023-03-06 13:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク