Discrete Key-Value Bottleneck

要約

ディープ ニューラル ネットワークは、データ ストリームが i.i.d. である分類タスクでうまく機能します。
ラベル付きデータが豊富です。
継続的な学習など、非定常的なトレーニング データ ストリームでは課題が生じます。
この課題に対処した強力なアプローチの 1 つは、すぐに利用できる大量のデータで大規模なエンコーダーを事前トレーニングし、その後にタスク固有のチューニングを行うことです。
ただし、新しいタスクが与えられた場合、これらのエンコーダーの重みを更新することは、多数の重みを微調整する必要があるため困難であり、その結果、以前のタスクに関する情報を忘れてしまいます。
現在の作業では、この問題に対処するためのモデル アーキテクチャを提案し、個別の学習可能なキーと値のコードのペアを含む個別のボトルネックに基づいて構築します。
私たちのパラダイムはエンコードすることです。
個別のボトルネックを介して表現を処理します。
とデコードします。
ここでは、入力が事前トレーニング済みのエンコーダーに供給され、エンコーダーの出力を使用して最も近いキーが選択され、対応する値がデコーダーに供給されて現在のタスクが解決されます。
モデルは、推論中にこれらのキーと値のペアのまばらな数のみをフェッチして再利用できるため、ローカライズされたコンテキスト依存のモデル更新が可能になります。
分散シフト下での学習の影響を最小限に抑える離散キー値ボトルネックの能力を理論的に調査し、それが仮説クラスの複雑さを軽減することを示します。
挑戦的なクラス増分学習シナリオの下で提案された方法を経験的に検証し、提案されたモデルが、タスク境界なしで、さまざまな事前トレーニング済みモデル全体で壊滅的な忘却を減らし、このタスクの関連するベースラインよりも優れていることを示します。

要約(オリジナル)

Deep neural networks perform well on classification tasks where data streams are i.i.d. and labeled data is abundant. Challenges emerge with non-stationary training data streams such as continual learning. One powerful approach that has addressed this challenge involves pre-training of large encoders on volumes of readily available data, followed by task-specific tuning. Given a new task, however, updating the weights of these encoders is challenging as a large number of weights needs to be fine-tuned, and as a result, they forget information about the previous tasks. In the present work, we propose a model architecture to address this issue, building upon a discrete bottleneck containing pairs of separate and learnable key-value codes. Our paradigm will be to encode; process the representation via a discrete bottleneck; and decode. Here, the input is fed to the pre-trained encoder, the output of the encoder is used to select the nearest keys, and the corresponding values are fed to the decoder to solve the current task. The model can only fetch and re-use a sparse number of these key-value pairs during inference, enabling localized and context-dependent model updates. We theoretically investigate the ability of the discrete key-value bottleneck to minimize the effect of learning under distribution shifts and show that it reduces the complexity of the hypothesis class. We empirically verify the proposed method under challenging class-incremental learning scenarios and show that the proposed model – without any task boundaries – reduces catastrophic forgetting across a wide variety of pre-trained models, outperforming relevant baselines on this task.

arxiv情報

著者 Frederik Träuble,Anirudh Goyal,Nasim Rahaman,Michael Mozer,Kenji Kawaguchi,Yoshua Bengio,Bernhard Schölkopf
発行日 2023-02-15 16:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク