Learning useful representations for shifting tasks and distributions

要約

表現を学習するための支配的なアプローチ (単一のトレーニング分布の予想コストを最適化することの副作用として) は、複数の分布を扱っている場合でも優れたアプローチであり続けますか?
私たちの論文は、そのようなシナリオは、単一の最適化エピソードで得られるものよりも「より豊かな」表現によってより適切に提供されるというものです。
これは、明らかに素朴なアンサンブル手法で得られた経験的結果のコレクションによってサポートされています。つまり、同じデータ、モデル、アルゴリズム、およびハイパーパラメーターを使用して複数のトレーニング エピソードで得られた表現を連結しますが、ランダム シードは異なります。
これらの個別にトレーニングされたネットワークは、同様に機能します。
しかし、新しい分布を含む多くのシナリオでは、連結された表現は、ゼロからトレーニングされた同等のサイズのネットワークよりも大幅に優れたパフォーマンスを発揮します。
これは、複数のトレーニング エピソードによって構築された表現が実際には異なることを証明しています。
それらの連結は、トレーニング分布の下でのトレーニング タスクに関する追加情報をほとんど伝達しませんが、タスクまたは分布が変更されると、実質的により有益になります。
一方、最適化プロセスには、トレーニングのパフォーマンスを段階的に改善しない機能を蓄積する理由がないため、単一のトレーニング エピソードでこのような冗長な表現が生成される可能性は低いです。

要約(オリジナル)

Does the dominant approach to learn representations (as a side effect of optimizing an expected cost for a single training distribution) remain a good approach when we are dealing with multiple distributions. Our thesis is that such scenarios are better served by representations that are ‘richer’ than those obtained with a single optimization episode. This is supported by a collection of empirical results obtained with an apparently na\’ive ensembling technique: concatenating the representations obtained with multiple training episodes using the same data, model, algorithm, and hyper-parameters, but different random seeds. These independently trained networks perform similarly. Yet, in a number of scenarios involving new distributions, the concatenated representation performs substantially better than an equivalently sized network trained from scratch. This proves that the representations constructed by multiple training episodes are in fact different. Although their concatenation carries little additional information about the training task under the training distribution, it becomes substantially more informative when tasks or distributions change. Meanwhile, a single training episode is unlikely to yield such a redundant representation because the optimization process has no reason to accumulate features that do not incrementally improve the training performance.

arxiv情報

著者 Jianyu Zhang,Léon Bottou
発行日 2022-12-14 17:17:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク