要約
適切な誘導バイアスを使用することで、反事実生成ネットワーク (CGN) は、形状、テクスチャ、および背景多様体のランダムな組み合わせから新しい画像を生成できます。
これらの画像を利用して不変分類子をトレーニングし、深いアーキテクチャが意味のある相関関係ではなく誤った相関関係を学習するという広範な問題を回避できます。
その結果、ドメイン外の堅牢性が向上します。
ただし、CGN アーキテクチャは、複数のパラメータ化されたネットワーク、つまり BigGAN と U2-Net で構成されています。
これらのネットワークのトレーニングには、適切な背景知識と大規模な計算が必要です。
常に正確なトレーニングの詳細にアクセスできるわけではなく、反事実についての必要な知識を常に持っているわけでもないため、私たちの作業は次の質問に取り組んでいます。
アーキテクチャのコンポーネントへのブラックボックス アクセス (つまり、事前トレーニング済みの CGN モデルへのアクセスのみ) を想定していますか?
この方向で、Knowledge Distillation (KD) を使用して知識の伝達を試みる SKDCGN という名前の新しい作品を提案します。
私たちが提案するアーキテクチャでは、それぞれの独立したメカニズム (形状、テクスチャ、背景) は、事前トレーニング済みの教師「BigGAN」から学習する学生「TinyGAN」によって表されます。
KD と適切な損失関数を使用して、ImageNet や MNIST などの最先端のデータセットを使用して、提案された方法の有効性を示します。
さらに、追加の貢献として、私たちの論文はCGNの構成メカニズムに関する徹底的な研究を行い、各メカニズムが不変分類器の分類精度にどのように影響するかをよりよく理解します。
コードは https://github.com/ambekarsameer96/SKDCGN で入手できます。
要約(オリジナル)
With the usage of appropriate inductive biases, Counterfactual Generative Networks (CGNs) can generate novel images from random combinations of shape, texture, and background manifolds. These images can be utilized to train an invariant classifier, avoiding the wide spread problem of deep architectures learning spurious correlations rather than meaningful ones. As a consequence, out-of-domain robustness is improved. However, the CGN architecture comprises multiple over parameterized networks, namely BigGAN and U2-Net. Training these networks requires appropriate background knowledge and extensive computation. Since one does not always have access to the precise training details, nor do they always possess the necessary knowledge of counterfactuals, our work addresses the following question: Can we use the knowledge embedded in pre-trained CGNs to train a lower-capacity model, assuming black-box access (i.e., only access to the pretrained CGN model) to the components of the architecture? In this direction, we propose a novel work named SKDCGN that attempts knowledge transfer using Knowledge Distillation (KD). In our proposed architecture, each independent mechanism (shape, texture, background) is represented by a student ‘TinyGAN’ that learns from the pretrained teacher ‘BigGAN’. We demonstrate the efficacy of the proposed method using state-of-the-art datasets such as ImageNet, and MNIST by using KD and appropriate loss functions. Moreover, as an additional contribution, our paper conducts a thorough study on the composition mechanism of the CGNs, to gain a better understanding of how each mechanism influences the classification accuracy of an invariant classifier. Code available at: https://github.com/ambekarsameer96/SKDCGN
arxiv情報
著者 | Sameer Ambekar,Matteo Tafuro,Ankit Ankit,Diego van der Mast,Mark Alence,Christos Athanasiadis |
発行日 | 2022-08-23 09:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google