Transfer Learning via Test-Time Neural Networks Aggregation

要約

ディープニューラルネットワークは、従来の機械学習よりも優れていることが実証されています。
ただし、ディープネットワークには一般化の可能性がありません。つまり、ドメインシフトのために、異なるディストリビューションから抽出された新しい(テスト)セットほどパフォーマンスが良くありません。
この既知の問題に取り組むために、トレーニングされたモデルの知識を別のモデルに転送して、さまざまなデータのパフォーマンスを向上させる、いくつかの転送学習アプローチが提案されています。
ただし、これらのアプローチのほとんどは、追加のトレーニング手順を必要とします。そうしないと、トレーニングされたモデルが以前に学習した知識を上書きしたときに発生する壊滅的な忘却に悩まされます。
ネットワーク集約を使用する新しい転送学習アプローチで両方の問題に対処します。
統合フレームワークの集約ネットワークとともに、データセット固有のネットワークをトレーニングします。
損失関数には、タスク固有の損失(クロスエントロピーなど)と集約損失の2つの主要なコンポーネントが含まれます。
提案された集約損失により、モデルは、トレーニングされたディープネットワークパラメーターを集約演算子で集約する方法を学習できます。
提案されたアプローチは、追加のトレーニング手順なしでテスト時にモデルの集約を学習し、単純な算術演算への転送学習の負担を軽減することを示します。
提案されたアプローチは、同等のパフォーマンスを達成します。
ベースライン。
さらに、集計演算子に逆関数がある場合、モデルが本質的に選択的忘却も可能にすることを示します。つまり、集計されたモデルは、トレーニングされたデータセットの1つを忘れて、他のデータセットに関する情報を保持できます。

要約(オリジナル)

It has been demonstrated that deep neural networks outperform traditional machine learning. However, deep networks lack generalisability, that is, they will not perform as good as in a new (testing) set drawn from a different distribution due to the domain shift. In order to tackle this known issue, several transfer learning approaches have been proposed, where the knowledge of a trained model is transferred into another to improve performance with different data. However, most of these approaches require additional training steps, or they suffer from catastrophic forgetting that occurs when a trained model has overwritten previously learnt knowledge. We address both problems with a novel transfer learning approach that uses network aggregation. We train dataset-specific networks together with an aggregation network in a unified framework. The loss function includes two main components: a task-specific loss (such as cross-entropy) and an aggregation loss. The proposed aggregation loss allows our model to learn how trained deep network parameters can be aggregated with an aggregation operator. We demonstrate that the proposed approach learns model aggregation at test time without any further training step, reducing the burden of transfer learning to a simple arithmetical operation. The proposed approach achieves comparable performance w.r.t. the baseline. Besides, if the aggregation operator has an inverse, we will show that our model also inherently allows for selective forgetting, i.e., the aggregated model can forget one of the datasets it was trained on, retaining information on the others.

arxiv情報

著者 Bruno Casella,Alessio Barbaro Chisari,Sebastiano Battiato,Mario Valerio Giuffrida
発行日 2022-06-27 15:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, I.2.6 パーマリンク