Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning

要約

値反復ネットワーク (VIN) は、強化学習 (RL) での計画のために潜在 MDP で値の反復を実行するエンドツーエンドの微分可能なアーキテクチャです。
ただし、VIN は、100 ドル× 100 ドルの迷路をナビゲートするなど、長期的かつ大規模な計画タスクに対応するのに苦労しています。このタスクは、通常、解決するために数千の計画ステップを必要とします。
この欠陥は、潜在 MDP の表現能力と計画モジュールの深さという 2 つの問題によるものであることがわかりました。
私たちは、潜在的な MDP を動的遷移カーネルで強化し、その表現能力を劇的に向上させ、勾配消失の問題を軽減するために、スキップ接続を構築して勾配の流れを改善する「適応ハイウェイ損失」を導入することで、これらに対処します。
2D 迷路ナビゲーション環境と ViZDoom 3D ナビゲーション ベンチマークの両方でメソッドを評価します。
ダイナミック トランジション VIN (DT-VIN) と名付けられた新しい方法は、簡単に 5000 層まで拡張でき、上記のタスクの困難なバージョンをカジュアルに解決できることがわかりました。
総合すると、DT-VIN は、RL 環境で長期にわたる大規模な計画を実行する上での具体的な一歩となると考えています。

要約(オリジナル)

The Value Iteration Network (VIN) is an end-to-end differentiable architecture that performs value iteration on a latent MDP for planning in reinforcement learning (RL). However, VINs struggle to scale to long-term and large-scale planning tasks, such as navigating a $100\times 100$ maze — a task which typically requires thousands of planning steps to solve. We observe that this deficiency is due to two issues: the representation capacity of the latent MDP and the planning module’s depth. We address these by augmenting the latent MDP with a dynamic transition kernel, dramatically improving its representational capacity, and, to mitigate the vanishing gradient problem, introducing an ‘adaptive highway loss’ that constructs skip connections to improve gradient flow. We evaluate our method on both 2D maze navigation environments and the ViZDoom 3D navigation benchmark. We find that our new method, named Dynamic Transition VIN (DT-VIN), easily scales to 5000 layers and casually solves challenging versions of the above tasks. Altogether, we believe that DT-VIN represents a concrete step forward in performing long-term large-scale planning in RL environments.

arxiv情報

著者 Yuhui Wang,Qingyuan Wu,Weida Li,Dylan R. Ashley,Francesco Faccio,Chao Huang,Jürgen Schmidhuber
発行日 2024-06-12 16:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 パーマリンク