要約
強化学習 (RL) は、多くの困難な逐次意思決定問題を解決できますが、関連するタスク間でゼロショット転送を達成することは依然として課題です。
難しいのは、現在のタスクが以前に見たタスクとどのように関連しているかをエージェントが理解できるように、現在のタスクを適切に表現するものを見つけることです。
ゼロショット転送を実現するために、学習された非線形基底関数の重み付けされた組み合わせとして関数を表す表現学習アルゴリズムである関数エンコーダーを導入します。
関数エンコーダを使用して報酬関数または遷移関数を表すことにより、エージェントは、現在のタスクが以前に見たタスクとどのように関連しているかについて、一貫したベクトル表現を介して情報を得ることができます。
したがって、エージェントは追加のトレーニングなしで、実行時に関連タスク間の転送を実現できます。
基本的な RL アルゴリズムを関数エンコーダー タスク表現で強化することにより、3 つの RL フィールドにおける最先端のデータ効率、漸近パフォーマンス、トレーニングの安定性を実証します。
要約(オリジナル)
Although reinforcement learning (RL) can solve many challenging sequential decision making problems, achieving zero-shot transfer across related tasks remains a challenge. The difficulty lies in finding a good representation for the current task so that the agent understands how it relates to previously seen tasks. To achieve zero-shot transfer, we introduce the function encoder, a representation learning algorithm which represents a function as a weighted combination of learned, non-linear basis functions. By using a function encoder to represent the reward function or the transition function, the agent has information on how the current task relates to previously seen tasks via a coherent vector representation. Thus, the agent is able to achieve transfer between related tasks at run time with no additional training. We demonstrate state-of-the-art data efficiency, asymptotic performance, and training stability in three RL fields by augmenting basic RL algorithms with a function encoder task representation.
arxiv情報
著者 | Tyler Ingebrand,Amy Zhang,Ufuk Topcu |
発行日 | 2024-01-30 17:04:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google