要約
強化学習 (RL) は急速に人間レベルの制御能力に達し、それを超えています。
ただし、最先端の RL アルゴリズムでは、多くの場合、人間の能力よりも大幅に速いタイムステップと反応時間が必要ですが、これは現実世界の設定では非現実的であり、通常は専用のハードウェアが必要です。
このような速度は現実世界では達成するのが難しく、多くの場合、専用のハードウェアが必要になります。
与えられた入力状態に対して一連のアクションを生成するように設計された RL アルゴリズムであるシーケンス強化学習 (SRL) を導入し、より低い決定頻度で効果的な制御を可能にします。
SRL は、さまざまな時間スケールで動作するモデルとアクタークリティカル アーキテクチャの両方を採用することで、アクション シーケンスを学習するという課題に対処します。
我々は、批評家がモデルを使用して原始的なアクション間の中間状態を推定し、シーケンス内の個々のアクションごとに学習信号を提供する「時間的想起」メカニズムを提案します。
トレーニングが完了すると、アクターはモデルとは独立してアクション シーケンスを生成し、より遅い頻度でモデルフリーの制御を実現できます。
一連の連続制御タスクで SRL を評価し、アクター サンプルの複雑さを大幅に軽減しながら、最先端のアルゴリズムに匹敵するパフォーマンスを達成することを実証しました。
さまざまな決定頻度にわたるパフォーマンスをより適切に評価するために、周波数平均スコア (FAS) メトリクスを導入します。
私たちの結果は、SRL が FAS の点で従来の RL アルゴリズムを大幅に上回り、可変の決定頻度を必要とするアプリケーションに特に適していることを示しています。
さらに、SRL とモデルベースのオンライン計画を比較し、オンライン プランナーが計画に使用するトレーニング中に同じモデルを活用しながら、SRL が優れた FAS を達成することを示します。
要約(オリジナル)
Reinforcement learning (RL) is rapidly reaching and surpassing human-level control capabilities. However, state-of-the-art RL algorithms often require timesteps and reaction times significantly faster than human capabilities, which is impractical in real-world settings and typically necessitates specialized hardware. Such speeds are difficult to achieve in the real world and often requires specialized hardware. We introduce Sequence Reinforcement Learning (SRL), an RL algorithm designed to produce a sequence of actions for a given input state, enabling effective control at lower decision frequencies. SRL addresses the challenges of learning action sequences by employing both a model and an actor-critic architecture operating at different temporal scales. We propose a ‘temporal recall’ mechanism, where the critic uses the model to estimate intermediate states between primitive actions, providing a learning signal for each individual action within the sequence. Once training is complete, the actor can generate action sequences independently of the model, achieving model-free control at a slower frequency. We evaluate SRL on a suite of continuous control tasks, demonstrating that it achieves performance comparable to state-of-the-art algorithms while significantly reducing actor sample complexity. To better assess performance across varying decision frequencies, we introduce the Frequency-Averaged Score (FAS) metric. Our results show that SRL significantly outperforms traditional RL algorithms in terms of FAS, making it particularly suitable for applications requiring variable decision frequencies. Additionally, we compare SRL with model-based online planning, showing that SRL achieves superior FAS while leveraging the same model during training that online planners use for planning.
arxiv情報
著者 | Devdhar Patel,Hava Siegelmann |
発行日 | 2024-10-18 14:35:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google