Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization

要約

単一ドメインの一般化は、単一のソース ドメイン データからモデルを学習して、他の目に見えないターゲット ドメインで一般化されたパフォーマンスを達成することを目的としています。
既存の研究は主に、静的ネットワークの一般化能力の向上に焦点を当てています。
ただし、静的ネットワークは、さまざまな画像シーンの多様な変化に動的に適応することができないため、一般化機能が制限されます。
シーンが異なれば複雑さのレベルも異なり、クロスドメイン シナリオでは画像の複雑さはさらに大きく異なります。
この論文では、画像の複雑さの変化に適応することを目的とした、即時学習に基づく動的なオブジェクト中心の知覚ネットワークを提案します。
具体的には、さまざまなシーンのプロンプトによって導かれるオブジェクト中心の特徴に注意を集中させるための、プロンプト学習に基づくオブジェクト中心のゲーティング モジュールを提案します。
次に、オブジェクト中心のゲーティング マスクを使用して、動的選択モジュールが空間次元とチャネル次元の両方で相関性の高い特徴領域を動的に選択することで、モデルがオブジェクト中心の関連特徴を適応的に認識できるようになり、それによって一般化機能が強化されます。
画像分類と物体検出における単一ドメインの汎化タスクに関して広範な実験が行われました。
実験結果は、私たちのアプローチが最先端の方法よりも優れていることを示しており、これにより、私たちが提案した方法の有効性と一般性が検証されます。

要約(オリジナル)

Single-domain generalization aims to learn a model from single source domain data to achieve generalized performance on other unseen target domains. Existing works primarily focus on improving the generalization ability of static networks. However, static networks are unable to dynamically adapt to the diverse variations in different image scenes, leading to limited generalization capability. Different scenes exhibit varying levels of complexity, and the complexity of images further varies significantly in cross-domain scenarios. In this paper, we propose a dynamic object-centric perception network based on prompt learning, aiming to adapt to the variations in image complexity. Specifically, we propose an object-centric gating module based on prompt learning to focus attention on the object-centric features guided by the various scene prompts. Then, with the object-centric gating masks, the dynamic selective module dynamically selects highly correlated feature regions in both spatial and channel dimensions enabling the model to adaptively perceive object-centric relevant features, thereby enhancing the generalization capability. Extensive experiments were conducted on single-domain generalization tasks in image classification and object detection. The experimental results demonstrate that our approach outperforms state-of-the-art methods, which validates the effectiveness and generally of our proposed method.

arxiv情報

著者 Deng Li,Aming Wu,Yaowei Wang,Yahong Han
発行日 2024-02-28 16:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク