Reinforcement Learning with Simple Sequence Priors

要約

他のすべてが等しい場合、より複雑なモデルよりも単純なモデルが優先されるはずです。
強化学習 (RL) では、単純さは通常、アクションごとに定量化されます。ただし、このタイムスケールでは、逐次戦略によく存在する繰り返しなどの時間的な規則性が無視されます。
したがって、圧縮可能な一連のアクションを使用してタスクを解決することを学習する RL アルゴリズムを提案します。
単純なアクション シーケンスの考えられる 2 つのソースを調査します。自己回帰モデルによって学習できるシーケンスと、既製のデータ圧縮アルゴリズムで圧縮可能なシーケンスです。
これらの優先順位を抽出して系列事前確率を抽出することで、エージェントがこれらの事前確率に準拠しながら報酬を最大化するポリシーを学習するよう促す、新しい情報理論的目標を導き出します。
結果として得られる RL アルゴリズムは学習の高速化につながり、DeepMind Control Suite からの一連の連続制御タスクにおいて最先端のモデルフリー アプローチよりも高い収益を達成できることを示します。
これらの事前分布は、ノイズの多い観測に対して堅牢であり、開ループ制御を実行できる強力な情報正規化エージェントも生成します。

要約(オリジナル)

Everything else being equal, simpler models should be preferred over more complex ones. In reinforcement learning (RL), simplicity is typically quantified on an action-by-action basis — but this timescale ignores temporal regularities, like repetitions, often present in sequential strategies. We therefore propose an RL algorithm that learns to solve tasks with sequences of actions that are compressible. We explore two possible sources of simple action sequences: Sequences that can be learned by autoregressive models, and sequences that are compressible with off-the-shelf data compression algorithms. Distilling these preferences into sequence priors, we derive a novel information-theoretic objective that incentivizes agents to learn policies that maximize rewards while conforming to these priors. We show that the resulting RL algorithm leads to faster learning, and attains higher returns than state-of-the-art model-free approaches in a series of continuous control tasks from the DeepMind Control Suite. These priors also produce a powerful information-regularized agent that is robust to noisy observations and can perform open-loop control.

arxiv情報

著者 Tankred Saanum,Noémi Éltető,Peter Dayan,Marcel Binz,Eric Schulz
発行日 2023-05-26 17:18:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク