Foundation Policies with Hilbert Representations

要約

次のトークンの予測など、教師なしおよび自己教師ありの目標により、大量のラベルなしデータからジェネラリスト モデルを事前トレーニングすることが可能になりました。
しかし、強化学習 (RL) では、ジェネラリスト ポリシーのための真に一般的でスケーラブルな教師なし事前トレーニング目標をオフライン データから見つけることは、依然として大きな未解決の問題です。
目標条件付き RL、行動クローニング、教師なしスキル学習などの原理に基づいて、一般的な自己教師あり RL を可能にする多くの方法が提案されていますが、そのような方法は、発見された行動の多様性、
高品質の実証データの必要性、または下流のタスクに対する明確な適応メカニズムの欠如。
この研究では、ゼロショットの方法で任意の新しいタスクに迅速に適応できるように、ラベルのないオフライン データから多様で最適な長期的な動作をキャプチャするジェネラリスト ポリシーを事前トレーニングするための新しい教師なしフレームワークを提案します。
私たちの重要な洞察は、基礎となる環境の時間構造を保存する構造化表現を学習し、この学習された潜在空間を方向性のある動きで拡張することです。これにより、下流タスクに対するさまざまなゼロショット ポリシー「プロンプト」スキームが可能になります。
シミュレートされたロボットの移動と操作のベンチマークに関する実験を通じて、教師なしポリシーが目標条件付きの一般的な RL タスクをゼロショット方式で解決でき、多くの場合、各設定向けに特別に設計された以前の手法を上回るパフォーマンスを発揮できることを示しました。
私たちのコードとビデオは https://seohong.me/projects/hilp/ で入手できます。

要約(オリジナル)

Unsupervised and self-supervised objectives, such as next token prediction, have enabled pre-training generalist models from large amounts of unlabeled data. In reinforcement learning (RL), however, finding a truly general and scalable unsupervised pre-training objective for generalist policies from offline data remains a major open question. While a number of methods have been proposed to enable generic self-supervised RL, based on principles such as goal-conditioned RL, behavioral cloning, and unsupervised skill learning, such methods remain limited in terms of either the diversity of the discovered behaviors, the need for high-quality demonstration data, or the lack of a clear adaptation mechanism for downstream tasks. In this work, we propose a novel unsupervised framework to pre-train generalist policies that capture diverse, optimal, long-horizon behaviors from unlabeled offline data such that they can be quickly adapted to any arbitrary new tasks in a zero-shot manner. Our key insight is to learn a structured representation that preserves the temporal structure of the underlying environment, and then to span this learned latent space with directional movements, which enables various zero-shot policy ‘prompting’ schemes for downstream tasks. Through our experiments on simulated robotic locomotion and manipulation benchmarks, we show that our unsupervised policies can solve goal-conditioned and general RL tasks in a zero-shot fashion, even often outperforming prior methods designed specifically for each setting. Our code and videos are available at https://seohong.me/projects/hilp/.

arxiv情報

著者 Seohong Park,Tobias Kreiman,Sergey Levine
発行日 2024-05-26 17:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク