Task Aware Dreamer for Task Generalization in Reinforcement Learning

要約

強化学習の長年の目標は、訓練タスクで学習し、同じようなダイナミックを共有するが報酬関数が異なる未知のタスクでうまく汎化できるエージェントを獲得することである。タスク間の汎化能力は、報酬メカニズムが異なる可能性のある実世界のシナリオに対するエージェントの適応性を決定するため重要である。本研究ではまず、一般的な世界モデルを訓練することで、これらのタスクの類似構造を利用し、より汎化可能なエージェントの訓練に役立つことを示す。世界モデルをタスクの汎化設定に拡張し、タスク間で一貫した潜在的特徴を識別するために報酬情報に基づく特徴を統合する、タスク・アウェア・ドリーマー(TAD)と名付けられた新しい手法を導入する。TADでは、サンプルデータの対数尤度の変分下界を計算し、報酬情報付きワールドモデルの最適化目標として、タスクの状態を用いてタスクを区別するように設計された新しい項を導入する。TADにおける報酬情報付きポリシーの利点を実証するために、異なるタスクの関連性を定量的に測定するタスク分布関連性(TDR)と呼ばれる新しい指標を導入する。高いTDRを示すタスク、すなわち、タスクが大きく異なる場合、マルコフ型政策ではそれらを区別するのに苦労することを示し、したがって、TADにおいて報酬情報付き政策を利用する必要があることを示す。画像ベースのタスクと状態ベースのタスクの両方で広範な実験を行った結果、TADは、特にTDRの高いタスクに対して、異なるタスクを同時に処理する性能を大幅に向上させることができ、未知のタスクに対する強力な汎化能力を示すことが示された。

要約(オリジナル)

A long-standing goal of reinforcement learning is to acquire agents that can learn on training tasks and generalize well on unseen tasks that may share a similar dynamic but with different reward functions. The ability to generalize across tasks is important as it determines an agent’s adaptability to real-world scenarios where reward mechanisms might vary. In this work, we first show that training a general world model can utilize similar structures in these tasks and help train more generalizable agents. Extending world models into the task generalization setting, we introduce a novel method named Task Aware Dreamer (TAD), which integrates reward-informed features to identify consistent latent characteristics across tasks. Within TAD, we compute the variational lower bound of sample data log-likelihood, which introduces a new term designed to differentiate tasks using their states, as the optimization objective of our reward-informed world models. To demonstrate the advantages of the reward-informed policy in TAD, we introduce a new metric called Task Distribution Relevance (TDR) which quantitatively measures the relevance of different tasks. For tasks exhibiting a high TDR, i.e., the tasks differ significantly, we illustrate that Markovian policies struggle to distinguish them, thus it is necessary to utilize reward-informed policies in TAD. Extensive experiments in both image-based and state-based tasks show that TAD can significantly improve the performance of handling different tasks simultaneously, especially for those with high TDR, and display a strong generalization ability to unseen tasks.

arxiv情報

著者 Chengyang Ying,Zhongkai Hao,Xinning Zhou,Hang Su,Songming Liu,Dong Yan,Jun Zhu
発行日 2024-02-02 16:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク