要約
監視されていないゼロショット補強学習(RL)は、行動基盤モデル(BFM)を事前に削除するための強力なパラダイムとして浮上しており、エージェントがゼロショットファッションで、つまり、テスト時間学習や計画を追加せずに報酬機能を介して指定されている幅広いダウンストリームタスクを解決できるようになりました。
これは、対応するほぼ最適な動作とともに自己監視されたタスクの埋め込みを学び、推論手順を組み込んで、特定の報酬機能の潜在的なタスクの埋め込みと関連するポリシーを直接取得することによって達成されます。
有望な結果にもかかわらず、ゼロショットポリシーは、監視されていないトレーニングプロセス、埋め込み、および推論手順によって引き起こされるエラーのために、しばしば最適ではありません。
このホワイトペーパーでは、環境とのオンライン相互作用のいくつかのステップでBFMのゼロショットパフォーマンスを改善しながら、適応プロセス中のパフォーマンスの低下を避けるために、迅速な適応戦略を考案することに焦点を当てています。
特に、既存のBFMは、推論手順で特定されたものよりもパフォーマンスの高いポリシーを含む一連のスキルを学習し、迅速な適応に適していることを実証します。
この観察に動機付けられて、私たちは、訓練を受けた事前に訓練されたBFMの低次元のタスク埋め込みスペースを検索して、下流タスクでのゼロショットポリシーのパフォーマンスを迅速に改善する俳優と俳優のみの迅速な適応戦略の両方を提案します。
特に、私たちのアプローチは、事前訓練を受けたRLモデルを微調整するときに一般的に観察される最初の「未学習」フェーズを軽減します。
複数のナビゲーションドメインと移動ドメインで、4つの最先端のゼロショットRLメソッドに加えて、高速適応戦略を評価します。
私たちの結果は、数十のエピソードでゼロショットパフォーマンスで10〜40%の改善を達成し、既存のベースラインを上回ることを示しています。
要約(オリジナル)
Unsupervised zero-shot reinforcement learning (RL) has emerged as a powerful paradigm for pretraining behavioral foundation models (BFMs), enabling agents to solve a wide range of downstream tasks specified via reward functions in a zero-shot fashion, i.e., without additional test-time learning or planning. This is achieved by learning self-supervised task embeddings alongside corresponding near-optimal behaviors and incorporating an inference procedure to directly retrieve the latent task embedding and associated policy for any given reward function. Despite promising results, zero-shot policies are often suboptimal due to errors induced by the unsupervised training process, the embedding, and the inference procedure. In this paper, we focus on devising fast adaptation strategies to improve the zero-shot performance of BFMs in a few steps of online interaction with the environment while avoiding any performance drop during the adaptation process. Notably, we demonstrate that existing BFMs learn a set of skills containing more performant policies than those identified by their inference procedure, making them well-suited for fast adaptation. Motivated by this observation, we propose both actor-critic and actor-only fast adaptation strategies that search in the low-dimensional task-embedding space of the pre-trained BFM to rapidly improve the performance of its zero-shot policies on any downstream task. Notably, our approach mitigates the initial ‘unlearning’ phase commonly observed when fine-tuning pre-trained RL models. We evaluate our fast adaptation strategies on top of four state-of-the-art zero-shot RL methods in multiple navigation and locomotion domains. Our results show that they achieve 10-40% improvement over their zero-shot performance in a few tens of episodes, outperforming existing baselines.
arxiv情報
著者 | Harshit Sikchi,Andrea Tirinzoni,Ahmed Touati,Yingchen Xu,Anssi Kanervisto,Scott Niekum,Amy Zhang,Alessandro Lazaric,Matteo Pirotta |
発行日 | 2025-04-10 16:14:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google