Combining Behaviors with the Successor Features Keyboard

要約

オプション キーボード (OK) は、タスク間で行動に関する知識を伝達する方法として最近提案されました。
OK は、後継機能 (SF) と一般化ポリシー改善 (GPI) を使用して、既知の動作のサブセットを適応的に組み合わせることで知識を伝達します。
ただし、手作業で設計された状態機能とタスクのエンコーディングに依存しているため、新しい環境ごとに設計するのは面倒です。
この研究では、発見された状態特徴とタスク エンコーディングを使用した転送を可能にする「サクセサー機能キーボード」(SFK) を提案します。
発見を可能にするために、状態特徴とタスクのエンコーディングを共同で発見しながら SF を推定するための新しい学習アルゴリズムである「カテゴリ後続特徴近似器」(CSFA) を提案します。
SFK と CSFA を使用して、必要な表現がすべて発見される、困難な 3D 環境での SF による転送の最初のデモンストレーションを達成しました。
まず、CSFA を SF を近似する他の方法と比較し、CSFA のみがこのスケールで SF&GPI と互換性のある表現を発見することを示します。
次に、SFK を転移学習ベースラインと比較し、SFK が長期タスクに最も迅速に移行することを示します。

要約(オリジナル)

The Option Keyboard (OK) was recently proposed as a method for transferring behavioral knowledge across tasks. OK transfers knowledge by adaptively combining subsets of known behaviors using Successor Features (SFs) and Generalized Policy Improvement (GPI). However, it relies on hand-designed state-features and task encodings which are cumbersome to design for every new environment. In this work, we propose the ‘Successor Features Keyboard’ (SFK), which enables transfer with discovered state-features and task encodings. To enable discovery, we propose the ‘Categorical Successor Feature Approximator’ (CSFA), a novel learning algorithm for estimating SFs while jointly discovering state-features and task encodings. With SFK and CSFA, we achieve the first demonstration of transfer with SFs in a challenging 3D environment where all the necessary representations are discovered. We first compare CSFA against other methods for approximating SFs and show that only CSFA discovers representations compatible with SF&GPI at this scale. We then compare SFK against transfer learning baselines and show that it transfers most quickly to long-horizon tasks.

arxiv情報

著者 Wilka Carvalho,Andre Saraiva,Angelos Filos,Andrew Kyle Lampinen,Loic Matthey,Richard L. Lewis,Honglak Lee,Satinder Singh,Danilo J. Rezende,Daniel Zoran
発行日 2023-10-24 15:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク