Goal-Conditioned Predictive Coding as an Implicit Planner for Offline Reinforcement Learning

要約

最近の研究では、オフラインで収集された軌跡に関する教師あり学習問題として意思決定を定式化することの有効性が実証されました。
ただし、軌跡データに対してシーケンス モデリングを実行する利点はまだ明らかではありません。
この研究では、シーケンス モデリングに、ポリシー学習に貢献できる有用な表現に軌道を凝縮する機能があるかどうかを調査します。
これを達成するために、最初にシーケンス モデリング技術を使用して軌跡を要約し、次にこれらの表現を使用して、望ましい目標に沿ったポリシーを学習する 2 段階のフレームワークを採用します。
この設計により、多くの既存の教師ありオフライン RL メソッドをフレームワークの特定のインスタンスとして考慮できるようになります。
このフレームワーク内で、強力な軌道表現をもたらし、パフォーマンスの高いポリシーにつながるアプローチである、目標条件付き予測コーディング (GCPC) を導入します。
私たちは、AntMaze、FrankaKitchen、および Locomotion 環境に対して広範な実証的評価を実施し、シーケンス モデリングが一部の意思決定タスクに重大な影響を与えることを観察しました。
さらに、GCPC が将来についての目標条件付き潜在表現を学習し、これが「暗黙のプランナー」として機能し、3 つのベンチマークすべてで競争力のあるパフォーマンスを可能にすることを実証します。

要約(オリジナル)

Recent work has demonstrated the effectiveness of formulating decision making as a supervised learning problem on offline-collected trajectories. However, the benefits of performing sequence modeling on trajectory data is not yet clear. In this work we investigate if sequence modeling has the capability to condense trajectories into useful representations that can contribute to policy learning. To achieve this, we adopt a two-stage framework that first summarizes trajectories with sequence modeling techniques, and then employs these representations to learn a policy along with a desired goal. This design allows many existing supervised offline RL methods to be considered as specific instances of our framework. Within this framework, we introduce Goal-Conditioned Predicitve Coding (GCPC), an approach that brings powerful trajectory representations and leads to performant policies. We conduct extensive empirical evaluations on AntMaze, FrankaKitchen and Locomotion environments, and observe that sequence modeling has a significant impact on some decision making tasks. In addition, we demonstrate that GCPC learns a goal-conditioned latent representation about the future, which serves as an ‘implicit planner’, and enables competitive performance on all three benchmarks.

arxiv情報

著者 Zilai Zeng,Ce Zhang,Shijie Wang,Chen Sun
発行日 2023-07-07 06:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク