Gradient-based inference of abstract task representations for generalization in neural networks

要約

人間や多くの動物は驚くべき適応行動を示し、同じ入力に対して内なる目標に応じて異なる反応を示すことができます。
脳は、計算の実行に必要な中間抽象化を表すだけでなく、計算自体の表現 (タスク抽象化) も積極的に維持します。
このような計算とその抽象化の分離は、より迅速な学習、柔軟な意思決定、および広範な一般化能力に関連しています。
私たちは、そのような利点がタスク抽象化でトレーニングされたニューラル ネットワークにも及ぶかどうかを調査します。
このような利点を実現するには、2 つの重要な機能を備えたタスク推論メカニズムが必要です。1 つは、明示的に提供されなくなったときに抽象的なタスク表現を推論する能力 (タスク推論)、2 つ目は、新しい問題に適応するためにタスク表現を操作する能力 (タスク)
再構成)。
これに取り組むために、変分推論の観点からタスク推論を最適化問題として投影し、期待値最大化フレームワークにアプローチを基礎付けます。
ニューラル ネットワークを介してタスク表現層に逆伝播された勾配が、現在のタスクの要求を推論するための効率的なヒューリスティックであることを示します。このプロセスを勾配ベースの推論 (GBI) と呼んでいます。
タスク表現層をさらに反復的に最適化することで、新しい状況に適応するために抽象化を再構成できるようになります。
おもちゃの例、新しい画像分類器、および言語モデルを使用して、GBI が新しいタスクに対するより高い学習効率と一般化を提供し、忘却を制限することを実証します。
さらに、GBI には不確実性推定のための情報の保存や分布外のサンプルの検出などの独自の利点があることを示します。

要約(オリジナル)

Humans and many animals show remarkably adaptive behavior and can respond differently to the same input depending on their internal goals. The brain not only represents the intermediate abstractions needed to perform a computation but also actively maintains a representation of the computation itself (task abstraction). Such separation of the computation and its abstraction is associated with faster learning, flexible decision-making, and broad generalization capacity. We investigate if such benefits might extend to neural networks trained with task abstractions. For such benefits to emerge, one needs a task inference mechanism that possesses two crucial abilities: First, the ability to infer abstract task representations when no longer explicitly provided (task inference), and second, manipulate task representations to adapt to novel problems (task recomposition). To tackle this, we cast task inference as an optimization problem from a variational inference perspective and ground our approach in an expectation-maximization framework. We show that gradients backpropagated through a neural network to a task representation layer are an efficient heuristic to infer current task demands, a process we refer to as gradient-based inference (GBI). Further iterative optimization of the task representation layer allows for recomposing abstractions to adapt to novel situations. Using a toy example, a novel image classifier, and a language model, we demonstrate that GBI provides higher learning efficiency and generalization to novel tasks and limits forgetting. Moreover, we show that GBI has unique advantages such as preserving information for uncertainty estimation and detecting out-of-distribution samples.

arxiv情報

著者 Ali Hummos,Felipe del Río,Brabeeba Mien Wang,Julio Hurtado,Cristian B. Calderon,Guangyu Robert Yang
発行日 2024-07-24 15:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク