Domain Invariant Masked Autoencoders for Self-supervised Learning from Multi-domains

要約

学習された表現を大きく異なる視覚領域に渡って汎化することは、人間の視覚系にとって基本的かつ重要な能力である。近年の自己教師付き学習法は,訓練集合と同じ領域で評価を行うことで良好な性能を発揮するが,異なる領域で試験を行うと望ましくない性能の低下を招く.そこで,学習セットと同じドメインでの評価に適するだけでなく,未知のドメインにも汎化可能なドメイン不変な特徴を学習する,複数ドメインからの自己教師付き学習タスクが提案されている.本論文では、マルチドメインからの自己教師付き学習のためのDiMAE(Domain-invariant Masked AutoEncoder)を提案し、ドメイン不変な特徴を学習するために、新しい前景タスクである⽯新タスクを設計しています。入力画像に異なる領域からのスタイルノイズを加え、その埋め込み画像から画像を再構成し、エンコーダを正則化して領域不変な特徴を学習するというのがそのコアとなる考え方です。DiMAEは、1)パラメータフリーでコンテンツを保持しつつ、他のドメインからのスタイル情報を入力に加えるコンテンツ保持型スタイルミックス、2)入力の対応するドメインスタイルをエンコードされたドメイン不変特徴に復元する複数ドメイン固有デコーダ、の2つの重要な設計を含んでいます。PACSとDomainNetを用いた実験により、DiMAEは最近の最新手法と比較してかなりの利点を達成することが示された。

要約(オリジナル)

Generalizing learned representations across significantly different visual domains is a fundamental yet crucial ability of the human visual system. While recent self-supervised learning methods have achieved good performances with evaluation set on the same domain as the training set, they will have an undesirable performance decrease when tested on a different domain. Therefore, the self-supervised learning from multiple domains task is proposed to learn domain-invariant features that are not only suitable for evaluation on the same domain as the training set but also can be generalized to unseen domains. In this paper, we propose a Domain-invariant Masked AutoEncoder (DiMAE) for self-supervised learning from multi-domains, which designs a new pretext task, \emph{i.e.,} the cross-domain reconstruction task, to learn domain-invariant features. The core idea is to augment the input image with style noise from different domains and then reconstruct the image from the embedding of the augmented image, regularizing the encoder to learn domain-invariant features. To accomplish the idea, DiMAE contains two critical designs, 1) content-preserved style mix, which adds style information from other domains to input while persevering the content in a parameter-free manner, and 2) multiple domain-specific decoders, which recovers the corresponding domain style of input to the encoded domain-invariant features for reconstruction. Experiments on PACS and DomainNet illustrate that DiMAE achieves considerable gains compared with recent state-of-the-art methods.

arxiv情報

著者 Haiyang Yang,Meilin Chen,Yizhou Wang,Shixiang Tang,Feng Zhu,Lei Bai,Rui Zhao,Wanli Ouyang
発行日 2022-06-06 13:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク