要約
リソースの制約の下で複雑なタスクを解決するには、強化学習 (RL) エージェントはシンプル、効率的、スケーラブルであり、(1) 大規模な状態空間と (2) インタラクション データの継続的な蓄積に対応する必要があります。
我々は、ハイパーモデルとインデックス サンプリング スキームを特徴とする RL フレームワークである HyperAgent を提案します。これにより、共役を必要とせずに一般値関数に関連付けられた事後関数の計算効率の高い増分近似と、データ効率の高いアクションの選択が可能になります。
HyperAgent の実装は簡単で、Double-DQN に必要な追加モジュールが 1 つだけ必要です。
HyperAgent は、大規模なディープ RL ベンチマークで堅牢なパフォーマンスを提供しながら、証明可能なスケーラブルなステップごとの計算複雑性を実現し、表形式の仮定の下でサブリニアリグレスを達成する最初の方法として際立っています。
HyperAgent は、問題のサイズに応じて最適にスケールするエピソードを使用して深海のハード探査問題を解決でき、Atari ベンチマークの下でデータと計算の両方で大幅な効率向上を示します。
私たちの理論分析の中核は、逐次事後近似引数です。これは、逐次ランダム射影用の最初の分析ツール、つまりジョンソン・リンデンシュトラウスの自明ではないマルチンゲール拡張によって可能になります。
この研究は RL の理論的領域と実践的領域の橋渡しとなり、RL アルゴリズム設計の新しいベンチマークを確立します。
要約(オリジナル)
To solve complex tasks under resource constraints, reinforcement learning (RL) agents need to be simple, efficient, and scalable, addressing (1) large state spaces and (2) the continuous accumulation of interaction data. We propose HyperAgent, an RL framework featuring the hypermodel and index sampling schemes that enable computation-efficient incremental approximation for the posteriors associated with general value functions without the need for conjugacy, and data-efficient action selection. Implementing HyperAgent is straightforward, requiring only one additional module beyond what is necessary for Double-DQN. HyperAgent stands out as the first method to offer robust performance in large-scale deep RL benchmarks while achieving provably scalable per-step computational complexity and attaining sublinear regret under tabular assumptions. HyperAgent can solve Deep Sea hard exploration problems with episodes that optimally scale with problem size and exhibits significant efficiency gains in both data and computation under the Atari benchmark. The core of our theoretical analysis is the sequential posterior approximation argument, enabled by the first analytical tool for sequential random projection — a non-trivial martingale extension of the Johnson-Lindenstrauss. This work bridges the theoretical and practical realms of RL, establishing a new benchmark for RL algorithm design.
arxiv情報
著者 | Yingru Li,Jiawei Xu,Lei Han,Zhi-Quan Luo |
発行日 | 2024-03-18 04:22:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google