LIMT: Language-Informed Multi-Task Visual World Models

要約

ロボット強化学習における最近の成功には、特化したシングルタスク エージェントの学習が含まれています。
ただし、現実世界のアプリケーションでは、複数のタスクを実行できるロボットの方がはるかに価値が高くなります。
マルチタスク強化学習は、サンプルの複雑さが増し、タスクの目標が矛盾する可能性があるため、非常に困難になる可能性があります。
このトピックに関するこれまでの研究は、モデルフリーのアプローチが主流でした。
後者は、特殊なシングルタスク エージェントを学習する場合でも、サンプルの効率が非常に悪い可能性があります。
この研究では、モデルベースのマルチタスク強化学習に焦点を当てます。
私たちは、意味的に意味のあるタスク表現を抽出するために事前訓練された言語モデルを活用して、マルチタスクの視覚世界モデルを学習する方法を提案します。
これらの表現は、ワールド モデルとポリシーによって、ダイナミクスと動作におけるタスクの類似性を推論するために使用されます。
私たちの結果は、ワールドモデルに言語駆動のタスク表現を使用する利点と、より一般的なモデルフリーのパラダイムに対するモデルベースのマルチタスク学習の明らかな利点を強調しています。

要約(オリジナル)

Most recent successes in robot reinforcement learning involve learning a specialized single-task agent. However, robots capable of performing multiple tasks can be much more valuable in real-world applications. Multi-task reinforcement learning can be very challenging due to the increased sample complexity and the potentially conflicting task objectives. Previous work on this topic is dominated by model-free approaches. The latter can be very sample inefficient even when learning specialized single-task agents. In this work, we focus on model-based multi-task reinforcement learning. We propose a method for learning multi-task visual world models, leveraging pre-trained language models to extract semantically meaningful task representations. These representations are used by the world model and policy to reason about task similarity in dynamics and behavior. Our results highlight the benefits of using language-driven task representations for world models and a clear advantage of model-based multi-task learning over the more common model-free paradigm.

arxiv情報

著者 Elie Aljalbout,Nikolaos Sotirakis,Patrick van der Smagt,Maximilian Karl,Nutan Chen
発行日 2024-07-18 12:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク