Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning

要約

強化学習 (RL) アルゴリズムの 2 つの要望は、比較的少ない経験から学習できることと、さまざまな問題仕様に一般化するポリシーを学習できることです。
因数分解された状態空間では、両方の目標を達成するための 1 つのアプローチは、目の前のタスクを学習するために必要な変数のみを保持する状態の抽象化を学習することです。
この論文では、各タスクのダイナミクスと報酬関数の因果関係を学習して、最小限のタスク固有の抽象化を導き出す方法である因果二重シミュレーション モデリング (CBM) を紹介します。
CBM は、暗黙的モデリングを活用して改善し、同じ環境内のすべてのタスクで再利用できる忠実度の高い因果関係力学モデルをトレーニングします。
操作環境と Deepmind Control Suite の経験的検証により、CBM の学習された暗黙的ダイナミクス モデルは、根底にある因果関係と状態の抽象化を明示的なモデルよりも正確に識別することが明らかになりました。
さらに、派生状態の抽象化により、タスク学習者はオラクルレベルに近いサンプル効率を達成し、すべてのタスクでベースラインを上回るパフォーマンスを得ることができます。

要約(オリジナル)

Two desiderata of reinforcement learning (RL) algorithms are the ability to learn from relatively little experience and the ability to learn policies that generalize to a range of problem specifications. In factored state spaces, one approach towards achieving both goals is to learn state abstractions, which only keep the necessary variables for learning the tasks at hand. This paper introduces Causal Bisimulation Modeling (CBM), a method that learns the causal relationships in the dynamics and reward functions for each task to derive a minimal, task-specific abstraction. CBM leverages and improves implicit modeling to train a high-fidelity causal dynamics model that can be reused for all tasks in the same environment. Empirical validation on manipulation environments and Deepmind Control Suite reveals that CBM’s learned implicit dynamics models identify the underlying causal relationships and state abstractions more accurately than explicit ones. Furthermore, the derived state abstractions allow a task learner to achieve near-oracle levels of sample efficiency and outperform baselines on all tasks.

arxiv情報

著者 Zizhao Wang,Caroline Wang,Xuesu Xiao,Yuke Zhu,Peter Stone
発行日 2024-01-23 05:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, I.2.6 パーマリンク