要約
強化学習 (RL) に関連する基本的な課題の 1 つは、十分なデータを収集するのに時間と費用がかかることです。
この論文では、古典物理学における動的可逆マルコフ連鎖 (DRMC) と時間可逆性の確立された構造に基づいて、マルコフ決定プロセス (MDP) における時間反転対称性の概念を形式化します。
具体的には、強化学習のサンプルの複雑さを軽減する際のこの概念の有用性を調査します。
MDP で時間反転の構造を利用すると、エージェントが経験するすべての環境遷移が実行可能な逆時間遷移に変換され、環境内の経験の数が効果的に 2 倍になることが観察されています。
この新しく合成されたデータの有用性をテストするために、時間対称データ拡張 (TSDA) と呼ばれる新しいアプローチを開発し、オフポリシーのモデルフリー RL の領域内で固有受容状態とピクセルベースの状態の両方でのその適用を調査します。
実証的評価は、これらの合成遷移が摩擦や接触のない時間可逆シナリオで RL エージェントのサンプル効率をどのように向上させることができるかを示しています。
また、これらの前提が全体的に満たされていない、より現実的な環境でもこの方法をテストします。
TSDA はサンプル効率とポリシーのパフォーマンスを大幅に低下させる可能性がありますが、適切な条件下ではサンプル効率を向上させることもできることがわかりました。
最終的に、時間対称性は強化学習のサンプル効率を向上させる可能性を示しており、環境と報酬構造が TSDA を効果的に使用するための適切な形式である場合のガイダンスを提供すると結論付けています。
要約(オリジナル)
One of the fundamental challenges associated with reinforcement learning (RL) is that collecting sufficient data can be both time-consuming and expensive. In this paper, we formalize a concept of time reversal symmetry in a Markov decision process (MDP), which builds upon the established structure of dynamically reversible Markov chains (DRMCs) and time-reversibility in classical physics. Specifically, we investigate the utility of this concept in reducing the sample complexity of reinforcement learning. We observe that utilizing the structure of time reversal in an MDP allows every environment transition experienced by an agent to be transformed into a feasible reverse-time transition, effectively doubling the number of experiences in the environment. To test the usefulness of this newly synthesized data, we develop a novel approach called time symmetric data augmentation (TSDA) and investigate its application in both proprioceptive and pixel-based state within the realm of off-policy, model-free RL. Empirical evaluations showcase how these synthetic transitions can enhance the sample efficiency of RL agents in time reversible scenarios without friction or contact. We also test this method in more realistic environments where these assumptions are not globally satisfied. We find that TSDA can significantly degrade sample efficiency and policy performance, but can also improve sample efficiency under the right conditions. Ultimately we conclude that time symmetry shows promise in enhancing the sample efficiency of reinforcement learning and provide guidance when the environment and reward structures are of an appropriate form for TSDA to be employed effectively.
arxiv情報
著者 | Brett Barkley,Amy Zhang,David Fridovich-Keil |
発行日 | 2023-11-28 18:02:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google