要約
適切な帰納バイアスを用いることで、Counterfactual Generative Networks (CGN) は、形状、テクスチャ、背景のランダムな組み合わせから新しい画像を生成することが可能である。これらの画像は、不変の分類器を学習するために利用することができ、深層アーキテクチャが意味のある相関ではなく、偽の相関を学習するという広範な問題を回避することができる。その結果、領域外のロバスト性が改善されます。しかし、CGNはBigGANとU2-Netという複数のパラメータ化されたネットワークで構成されています。これらのネットワークを学習するには、適切な背景知識と膨大な計算が必要である。人は常に正確な学習の詳細を入手できるとは限らないし、反実仮想に関する必要な知識を常に持っているとも限らないので、我々の研究は以下の問いに取り組んでいる。アーキテクチャの構成要素へのブラックボックスアクセス(すなわち、事前学習済みCGNモデルへのアクセスのみ)を前提として、事前学習済みCGNに埋め込まれた知識を用いて、より低容量のモデルを学習することは可能か?そこで、知識蒸留法(Knowledge Distillation: KD)を用いて知識の伝達を試みるSKDCGNと名付けた新しい作品を提案します。提案するアーキテクチャでは、それぞれの独立したメカニズム(形状、テクスチャ、背景)は、事前に学習された教師である「BigGAN」から学習する生徒「TinyGAN」によって表現される。我々は、ImageNetやMNISTといった最先端のデータセットを用いて、KDと適切な損失関数を用いて、提案手法の有効性を実証する。さらに、本論文では、CGNの構成メカニズムを徹底的に研究し、各メカニズムが不変分類器の分類精度にどのような影響を与えるかをより深く理解することに貢献している。コードは https://github.com/ambekarsameer96/SKDCGN で公開されています。
要約(オリジナル)
With the usage of appropriate inductive biases, Counterfactual Generative Networks (CGNs) can generate novel images from random combinations of shape, texture, and background manifolds. These images can be utilized to train an invariant classifier, avoiding the wide spread problem of deep architectures learning spurious correlations rather than meaningful ones. As a consequence, out-of-domain robustness is improved. However, the CGN architecture comprises multiple over parameterized networks, namely BigGAN and U2-Net. Training these networks requires appropriate background knowledge and extensive computation. Since one does not always have access to the precise training details, nor do they always possess the necessary knowledge of counterfactuals, our work addresses the following question: Can we use the knowledge embedded in pre-trained CGNs to train a lower-capacity model, assuming black-box access (i.e., only access to the pretrained CGN model) to the components of the architecture? In this direction, we propose a novel work named SKDCGN that attempts knowledge transfer using Knowledge Distillation (KD). In our proposed architecture, each independent mechanism (shape, texture, background) is represented by a student ‘TinyGAN’ that learns from the pretrained teacher ‘BigGAN’. We demonstrate the efficacy of the proposed method using state-of-the-art datasets such as ImageNet, and MNIST by using KD and appropriate loss functions. Moreover, as an additional contribution, our paper conducts a thorough study on the composition mechanism of the CGNs, to gain a better understanding of how each mechanism influences the classification accuracy of an invariant classifier. Code available at: https://github.com/ambekarsameer96/SKDCGN
arxiv情報
著者 | Sameer Ambekar,Ankit Ankit,Diego van der Mast,Mark Alence,Matteo Tafuro,Christos Athanasiadis |
発行日 | 2022-08-10 08:03:00+00:00 |
arxivサイト | arxiv_id(pdf) |