要約
タイトル: クロスモーダル学習による歩行生成の一元化
要約:
– 感覚観測から状態を構成することは、強化学習エージェントにとって重要である。
– 状態構成のための解決策の1つは、再帰型ニューラルネットワークを使用することである。BPTTおよびRTRLは、再帰学習のための2つの人気のある勾配ベースの方法である。
– BPTTは勾配を計算する前に完全なシーケンスの観測が必要であり、オンラインリアルタイム更新には適していない。RTRLはオンライン更新ができるが、大規模なネットワークにはスケールしない。
– この論文では、RTRLをスケーラブルにするために2つの制約を提案する。ネットワークを独立モジュールに分解するか、ネットワークを段階的に学習することにより、RTRLをパラメータ数と線形的にスケーリングできることを示す。
– これらのアルゴリズムは、勾配推定にノイズやバイアスを加えることなく、ネットワークの機能能力とスケーラブルな学習のトレードオフを行う。
– このアプローチは、動物学習に触発されたベンチマークとアーケード学習環境(ALE)での事前訓練されたRainbow-DQNエージェントのポリシー評価において、Truncated-BPTTよりも効果的であることを示す。
要約(オリジナル)
State construction from sensory observations is an important component of a reinforcement learning agent. One solution for state construction is to use recurrent neural networks. Back-propagation through time (BPTT), and real-time recurrent learning (RTRL) are two popular gradient-based methods for recurrent learning. BPTT requires the complete sequence of observations before computing gradients and is unsuitable for online real-time updates. RTRL can do online updates but scales poorly to large networks. In this paper, we propose two constraints that make RTRL scalable. We show that by either decomposing the network into independent modules, or learning the network incrementally, we can make RTRL scale linearly with the number of parameters. Unlike prior scalable gradient estimation algorithms, such as UORO and Truncated-BPTT, our algorithms do not add noise or bias to the gradient estimate. Instead, they trade-off the functional capacity of the network to achieve scalable learning. We demonstrate the effectiveness of our approach over Truncated-BPTT on a benchmark inspired by animal learning and by doing policy evaluation for pre-trained Rainbow-DQN agents in the Arcade Learning Environment (ALE).
arxiv情報
著者 | Khurram Javed,Haseeb Shah,Rich Sutton,Martha White |
発行日 | 2023-04-27 19:09:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI