Contrastive Example-Based Control

要約

現実世界の問題の多くは強化学習から恩恵を受ける可能性がありますが、これらの問題が MDP の型に適合することはほとんどありません。環境との対話には多くの場合コストがかかり、報酬関数の指定は困難です。
これらの課題に動機付けられて、これまでの研究では、遷移ダイナミクスのサンプルと高収益状態の例から完全に学習するデータ駆動型のアプローチが開発されました。
これらのメソッドは通常、高収益状態から報酬関数を学習し、その報酬関数を使用して遷移にラベルを付け、オフライン RL アルゴリズムをこれらの遷移に適用します。
これらの方法は多くのタスクで良好な結果を達成できますが、複雑になる可能性があり、多くの場合、正則化と時間差の更新が必要になります。
この論文では、報酬関数ではなく、マルチステップ遷移の暗黙的モデルを学習する、オフラインのサンプルベースの制御方法を提案します。
この陰的モデルが例ベースの制御問題の Q 値を表現できることを示します。
さまざまな状態ベースおよび画像ベースのオフライン制御タスクにわたって、私たちの方法は学習された報酬関数を使用するベースラインを上回ります。
追加の実験では、データセットのサイズに応じた堅牢性とスケーリングの向上が実証されています。

要約(オリジナル)

While many real-world problems that might benefit from reinforcement learning, these problems rarely fit into the MDP mold: interacting with the environment is often expensive and specifying reward functions is challenging. Motivated by these challenges, prior work has developed data-driven approaches that learn entirely from samples from the transition dynamics and examples of high-return states. These methods typically learn a reward function from high-return states, use that reward function to label the transitions, and then apply an offline RL algorithm to these transitions. While these methods can achieve good results on many tasks, they can be complex, often requiring regularization and temporal difference updates. In this paper, we propose a method for offline, example-based control that learns an implicit model of multi-step transitions, rather than a reward function. We show that this implicit model can represent the Q-values for the example-based control problem. Across a range of state-based and image-based offline control tasks, our method outperforms baselines that use learned reward functions; additional experiments demonstrate improved robustness and scaling with dataset size.

arxiv情報

著者 Kyle Hatch,Benjamin Eysenbach,Rafael Rafailov,Tianhe Yu,Ruslan Salakhutdinov,Sergey Levine,Chelsea Finn
発行日 2023-07-24 19:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク