Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting

要約

前方後方表現 (FB) は、行動基盤モデル (BFM) をトレーニングするために最近提案されたフレームワーク (Touati et al., 2023; Touati & Ollivier, 2021) であり、で指定された新しいタスクに対してゼロショットの効率的なポリシーを提供することを目的としています。
特定の強化学習 (RL) 環境で、新しいタスクごとにトレーニングする必要はありません。
ここでは、FB モデルのトレーニングの 2 つの主要な制限について説明します。
まず、FB は、すべての後続機能ベースのメソッドと同様に、タスクの線形エンコードに依存します。テスト時に、新しい報酬関数はそれぞれ、事前トレーニングされた機能の固定セットに線形に投影されます。
これにより、タスク表現の表現力と精度が制限されます。
FB に自動回帰機能を導入することで、線形性の制限を打破します。これにより、きめの細かいタスク特徴が、よりきめの粗いタスク情報に依存できるようになります。
これにより、任意の非線形タスク エンコーディングを表現できるため、FB フレームワークの表現力が大幅に向上します。
第二に、オフライン データセットから RL エージェントをトレーニングするには、多くの場合、特定の手法が必要であることがよく知られています。我々は、(Nair et al., 2020b; Cetin et al., 2024) の手法を適用することで、FB がそのようなオフライン RL 手法とうまく連携することを示します。
)FB用。
これは、DMC Humanoid などの一部のデータセットで非平坦化パフォーマンスを得るために必要です。
その結果、多くの新しい環境向けに効率的な FB BFM を生成します。
特に、D4RL 移動ベンチマークでは、汎用 FB エージェントが標準のシングルタスク オフライン エージェント (IQL、XQL) のパフォーマンスに匹敵します。
多くのセットアップでは、まともなパフォーマンスを得るにはオフライン技術が必要です。
自動回帰機能は、トレインセットで表現される動作を超えた空間精度とタスクの一般化を必要とするタスクに集中し、プラスではあるものの適度な影響を与えます。

要約(オリジナル)

The forward-backward representation (FB) is a recently proposed framework (Touati et al., 2023; Touati & Ollivier, 2021) to train behavior foundation models (BFMs) that aim at providing zero-shot efficient policies for any new task specified in a given reinforcement learning (RL) environment, without training for each new task. Here we address two core limitations of FB model training. First, FB, like all successor-feature-based methods, relies on a linear encoding of tasks: at test time, each new reward function is linearly projected onto a fixed set of pre-trained features. This limits expressivity as well as precision of the task representation. We break the linearity limitation by introducing auto-regressive features for FB, which let finegrained task features depend on coarser-grained task information. This can represent arbitrary nonlinear task encodings, thus significantly increasing expressivity of the FB framework. Second, it is well-known that training RL agents from offline datasets often requires specific techniques.We show that FB works well together with such offline RL techniques, by adapting techniques from (Nair et al.,2020b; Cetin et al., 2024) for FB. This is necessary to get non-flatlining performance in some datasets, such as DMC Humanoid. As a result, we produce efficient FB BFMs for a number of new environments. Notably, in the D4RL locomotion benchmark, the generic FB agent matches the performance of standard single-task offline agents (IQL, XQL). In many setups, the offline techniques are needed to get any decent performance at all. The auto-regressive features have a positive but moderate impact, concentrated on tasks requiring spatial precision and task generalization beyond the behaviors represented in the trainset.

arxiv情報

著者 Edoardo Cetin,Ahmed Touati,Yann Ollivier
発行日 2024-12-05 17:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク