Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization

要約

過去 10 年間、ディープ ニューラル ネットワークは、学術界と産業界の両方において、コンピューター ビジョンの問題において急速な進歩と重要な成果をもたらしてきました。
しかし、成功にもかかわらず、最先端の画像分類アプローチは、現実世界の多くのアプリケーションで必要とされる、これまで見たことのない視覚的コンテキストではうまく一般化できません。
この論文では、このドメイン汎化 (DG) 問題に焦点を当て、深層畳み込みニューラル ネットワークの汎化能力は、ネットワークの多層およびマルチスケール表現を利用することで向上できると主張します。
低レベルの特徴と高レベルの特徴の両方を複数のスケールで組み合わせることで、画像分類器のドメイン一般化を改善することを目的としたフレームワークを導入します。これにより、ネットワークが潜在空間内の表現を暗黙的に解きほぐし、描画されたオブジェクトのドメイン不変属性を学習できるようになります。
さらに、ロバストな表現学習をさらに促進するために、抽出された表現が分布シフトの下でも不変のままであるように制約することを目的とした、対照学習にヒントを得た新しい目的関数を提案します。
PACS、VLCS、Office-Home、NICO のドメイン一般化データセットを評価することで、この方法の有効性を実証します。
広範な実験を通じて、私たちのモデルが以前の DG 手法のパフォーマンスを上回り、すべてのデータセットで競争力のある最先端の結果を一貫して生み出すことができることを示しました。

要約(オリジナル)

During the past decade, deep neural networks have led to fast-paced progress and significant achievements in computer vision problems, for both academia and industry. Yet despite their success, state-of-the-art image classification approaches fail to generalize well in previously unseen visual contexts, as required by many real-world applications. In this paper, we focus on this domain generalization (DG) problem and argue that the generalization ability of deep convolutional neural networks can be improved by taking advantage of multi-layer and multi-scaled representations of the network. We introduce a framework that aims at improving domain generalization of image classifiers by combining both low-level and high-level features at multiple scales, enabling the network to implicitly disentangle representations in its latent space and learn domain-invariant attributes of the depicted objects. Additionally, to further facilitate robust representation learning, we propose a novel objective function, inspired by contrastive learning, which aims at constraining the extracted representations to remain invariant under distribution shifts. We demonstrate the effectiveness of our method by evaluating on the domain generalization datasets of PACS, VLCS, Office-Home and NICO. Through extensive experimentation, we show that our model is able to surpass the performance of previous DG methods and consistently produce competitive and state-of-the-art results in all datasets.

arxiv情報

著者 Aristotelis Ballas,Christos Diou
発行日 2024-01-30 13:12:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク