A Method of Selective Attention for Reservoir Based Agents

要約

深い補強学習エージェントのトレーニングは、報酬機能を有用に条件にしない入力寸法の存在によってかなり遅くなります。
レイヤー正規化などの既存のモジュールは、選択的注意の形態として機能するために重量減衰でトレーニングすることができます。つまり、不要な入力のスケールを縮小し、ポリシーのトレーニングを加速します。
ただし、入力マスクの計算に多数のパラメーターを追加すると、トレーニングがはるかに高速になるという驚くべき結果が得られます。
シンプルで高次元のマスキングモジュールは、入力抑制のない層の正規化とモデルと比較されます。
高次元マスクは、帰無仮説を介したトレーニングで4倍のスピードアップと、レイヤー正規化法でのトレーニングで2倍のスピードアップをもたらしました。

要約(オリジナル)

Training of deep reinforcement learning agents is slowed considerably by the presence of input dimensions that do not usefully condition the reward function. Existing modules such as layer normalization can be trained with weight decay to act as a form of selective attention, i.e. an input mask, that shrinks the scale of unnecessary inputs, which in turn accelerates training of the policy. However, we find a surprising result that adding numerous parameters to the computation of the input mask results in much faster training. A simple, high dimensional masking module is compared with layer normalization and a model without any input suppression. The high dimensional mask resulted in a four-fold speedup in training over the null hypothesis and a two-fold speedup in training over the layer normalization method.

arxiv情報

著者 Kevin McKee
発行日 2025-02-28 17:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク