要約
模倣制約の下で多様性を最大化するためのアルゴリズムの多くは本質的にオンラインですが、多くのアプリケーションは環境との相互作用のないオフライン アルゴリズムを必要とします。
ただし、オフライン設定でこの問題に取り組むには、非定常な報酬を伴う、自明ではない多段階の最適化プロセスが必要となる重大な課題が生じます。
この研究では、ファン デル ワールス (VdW) 力と後継の機能に基づく目標を使用して多様性を強化し、以前に使用されていたスキル弁別器を学習する必要性を排除する、新しいオフライン アルゴリズムを紹介します。
さらに、事前にトレーニングされた関数型報酬エンコーディング (FRE) で価値関数とポリシーを条件付けすることにより、私たちのメソッドは非定常報酬のより適切な処理を可能にし、トレーニング中に遭遇したすべてのスキルのゼロショットリコールを提供し、一連のスキルを大幅に拡張します。
以前の仕事で学んだスキル。
その結果、私たちのアルゴリズムは一貫して強いダイバーシティ信号 (VdW) を受信することで恩恵を受け、より安定して効率的なトレーニングを享受できます。
シミュレーションにおける 2 つのロボット タスク (四足歩行の移動と障害物横断を伴うローカル ナビゲーション) に対する多様なスキルを生成する際のこの方法の有効性を実証します。
要約(オリジナル)
While many algorithms for diversity maximization under imitation constraints are online in nature, many applications require offline algorithms without environment interactions. Tackling this problem in the offline setting, however, presents significant challenges that require non-trivial, multi-stage optimization processes with non-stationary rewards. In this work, we present a novel offline algorithm that enhances diversity using an objective based on Van der Waals (VdW) force and successor features, and eliminates the need to learn a previously used skill discriminator. Moreover, by conditioning the value function and policy on a pre-trained Functional Reward Encoding (FRE), our method allows for better handling of non-stationary rewards and provides zero-shot recall of all skills encountered during training, significantly expanding the set of skills learned in prior work. Consequently, our algorithm benefits from receiving a consistently strong diversity signal (VdW), and enjoys more stable and efficient training. We demonstrate the effectiveness of our method in generating diverse skills for two robotic tasks in simulation: locomotion of a quadruped and local navigation with obstacle traversal.
arxiv情報
著者 | Pavel Kolev,Marin Vlastelica,Georg Martius |
発行日 | 2025-01-08 11:20:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google