Value Explicit Pretraining for Goal-Based Transfer Learning

要約

最後のフレームが目標に対応する一連の観測からの値関数推定に基づいて、タスクに依存しない表現の学習を可能にする方法を提案します。
これらの表現は、外観の変化やダイナミクスに関係なく、目標状態までの時間的距離に基づいて、さまざまなタスクにわたる状態を関連付けることを学習します。
この方法は、学習したポリシー/スキルを目に見えない関連タスクに転送するために使用できます。

要約(オリジナル)

We propose a method that allows for learning task-agnostic representations based on value function estimates from a sequence of observations where the last frame corresponds to a goal. These representations would learn to relate states across different tasks, based on the temporal distance to the goal state, irrespective of the appearance changes and dynamics. This method could be used to transfer learnt policies/skills to unseen related tasks.

arxiv情報

著者 Kiran Lekkala,Henghui Bao,Sumedh Sontakke,Laurent Itti
発行日 2023-12-19 17:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク