Gradient Routing: Masking Gradients to Localize Computation in Neural Networks

要約

ニューラル ネットワークは、内部メカニズムに関係なく、主に入力と出力に基づいてトレーニングされます。
これらの無視されたメカニズムは、(i) 透明性など、安全にとって重要な特性を決定します。
(ii) 機密情報または有害な機能がないこと。
(iii) トレーニングの分布を超えた目標の信頼性の高い一般化。
この欠点に対処するために、ニューラル ネットワークの特定のサブ領域に機能を分離するトレーニング方法である勾配ルーティングを導入します。
勾配ルーティングは、バックプロパゲーション中にデータ依存の重み付きマスクを勾配に適用します。
これらのマスクは、どのデータ ポイントによってどのパラメータが更新されるかを構成するためにユーザーによって提供されます。
勾配ルーティングを使用して、(1) 解釈可能な方法で分割された表現を学習できることを示します。
(2)事前に指定されたネットワークサブ領域のアブレーションを介してロバストなアンラーニングを可能にする。
(3) さまざまな動作を担当するモジュールをローカライズすることで、強化学習器のスケーラブルな監視を実現します。
全体を通じて、勾配ルーティングは、データの限定されたアドホックなサブセットに適用された場合でも、機能を局所化することがわかります。
このアプローチは、高品質のデータが不足している困難な現実世界のアプリケーションに有望であると結論付けています。

要約(オリジナル)

Neural networks are trained primarily based on their inputs and outputs, without regard for their internal mechanisms. These neglected mechanisms determine properties that are critical for safety, like (i) transparency; (ii) the absence of sensitive information or harmful capabilities; and (iii) reliable generalization of goals beyond the training distribution. To address this shortcoming, we introduce gradient routing, a training method that isolates capabilities to specific subregions of a neural network. Gradient routing applies data-dependent, weighted masks to gradients during backpropagation. These masks are supplied by the user in order to configure which parameters are updated by which data points. We show that gradient routing can be used to (1) learn representations which are partitioned in an interpretable way; (2) enable robust unlearning via ablation of a pre-specified network subregion; and (3) achieve scalable oversight of a reinforcement learner by localizing modules responsible for different behaviors. Throughout, we find that gradient routing localizes capabilities even when applied to a limited, ad-hoc subset of the data. We conclude that the approach holds promise for challenging, real-world applications where quality data are scarce.

arxiv情報

著者 Alex Cloud,Jacob Goldman-Wetzler,Evžen Wybitul,Joseph Miller,Alexander Matt Turner
発行日 2024-11-29 18:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク