Highway Value Iteration Networks

要約

値反復ネットワーク (VIN) は、値反復アルゴリズムを近似する微分可能な「計画モジュール」を採用することにより、タスクを計画するためのエンドツーエンドの学習を可能にします。
ただし、非常に深い VIN のトレーニングは難しいため、長期的な計画は依然として課題です。
この問題に対処するために、私たちはハイウェイ値反復 (長期クレジット割り当てを容易にするために設計された最近のアルゴリズム) を VIN の構造に埋め込みます。
この改善により、VIN の「計画モジュール」が 3 つの追加コンポーネントで強化されます。1) 「集約ゲート」。スキップ接続を構築して、多くの層にわたる情報の流れを改善します。
2) 空間次元における情報と勾配の流れの多様性を高めるために作られた「探索モジュール」。
3) 安全な探索を確保するために設計された「フィルター ゲート」。
結果として得られる新しいハイウェイ VIN は、標準的なバックプロパゲーションを使用して数百のレイヤーで効果的にトレーニングできます。
何百もの計画ステップを必要とする長期的な計画タスクでは、ディープ ハイウェイ VIN は、従来の VIN やいくつかの先進的な非常にディープな NN の両方よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Value iteration networks (VINs) enable end-to-end learning for planning tasks by employing a differentiable ‘planning module’ that approximates the value iteration algorithm. However, long-term planning remains a challenge because training very deep VINs is difficult. To address this problem, we embed highway value iteration — a recent algorithm designed to facilitate long-term credit assignment — into the structure of VINs. This improvement augments the ‘planning module’ of the VIN with three additional components: 1) an ‘aggregate gate,’ which constructs skip connections to improve information flow across many layers; 2) an ‘exploration module,’ crafted to increase the diversity of information and gradient flow in spatial dimensions; 3) a ‘filter gate’ designed to ensure safe exploration. The resulting novel highway VIN can be trained effectively with hundreds of layers using standard backpropagation. In long-term planning tasks requiring hundreds of planning steps, deep highway VINs outperform both traditional VINs and several advanced, very deep NNs.

arxiv情報

著者 Yuhui Wang,Weida Li,Francesco Faccio,Qingyuan Wu,Jürgen Schmidhuber
発行日 2024-06-05 17:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク