要約
強化学習(RL)は多くの挑戦的な順次意思決定の問題を解決することができますが、関連するタスク全体でゼロショット転送を達成することは依然として課題です。
エージェントが以前に見たタスクとどのように関係するかを理解するように、現在のタスクの適切な表現を見つけることが困難です。
ゼロショット転送を実現するために、関数エンコーダを導入します。これは、学習していない非線形基底関数の加重組み合わせとして関数を表す表現学習アルゴリズムです。
関数エンコーダーを使用して報酬機能または遷移関数を表すことにより、エージェントは、現在のタスクがコヒーレントベクトル表現を介して以前に見たタスクにどのように関連するかについての情報を持っています。
したがって、エージェントは、追加のトレーニングなしで、実行時に関連するタスク間の転送を達成することができます。
関数エンコーダータスク表現を使用して基本的なRLアルゴリズムを増強することにより、3つのRLフィールドで最先端のデータ効率、漸近パフォーマンス、およびトレーニングの安定性を示します。
要約(オリジナル)
Although reinforcement learning (RL) can solve many challenging sequential decision making problems, achieving zero-shot transfer across related tasks remains a challenge. The difficulty lies in finding a good representation for the current task so that the agent understands how it relates to previously seen tasks. To achieve zero-shot transfer, we introduce the function encoder, a representation learning algorithm which represents a function as a weighted combination of learned, non-linear basis functions. By using a function encoder to represent the reward function or the transition function, the agent has information on how the current task relates to previously seen tasks via a coherent vector representation. Thus, the agent is able to achieve transfer between related tasks at run time with no additional training. We demonstrate state-of-the-art data efficiency, asymptotic performance, and training stability in three RL fields by augmenting basic RL algorithms with a function encoder task representation.
arxiv情報
著者 | Tyler Ingebrand,Amy Zhang,Ufuk Topcu |
発行日 | 2025-03-21 14:37:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google