要約
オフライン強化学習は、以前に収集されたデモンストレーションから学習することにより、行動計画において多大な成功を収めています。
しかし、マルチタスクミッションにおける意思決定には依然として大きな課題が存在します。
たとえば、ミッションでは、途中で障害物との対話が含まれる場合でも、エージェントが未知の環境を探索し、目標を発見し、そこに向かって移動する必要がある場合があります。
このような行動計画の問題は、a) エージェントが報酬関数を通じて学習した単一のタスクを超えて適応できないこと、b) トレーニング デモンストレーションでカバーされていない新しい環境、たとえばすべてのドアが閉まっている環境に一般化できないことにより、解決が困難です。
デモンストレーションではロックが解除されました。
その結果、最先端の意思決定方法は、必要なタスクが訓練デモンストレーションでよく表現され、短い(時間的な)計画期間内に解決できるミッションに限定されます。
これに対処するために、私たちは GenPlan を提案します。GenPlan は、生成シーケンス モデリングに離散フロー モデルを活用し、サンプル効率の高い探索と活用を可能にする、確率的かつ適応的なプランナーです。
このフレームワークは、反復的なノイズ除去手順に依存して、一連の目標とアクションを生成します。
このアプローチは、マルチモーダルなアクションの分布を捕捉し、目標とタスクの発見を容易にすることで、分布外のタスクと環境、つまりトレーニング データの一部ではないミッションへの一般化を強化します。
複数のシミュレーション環境を通じてこの方法の有効性を実証します。
特に、GenPlan は、エージェントが単一の目標を達成するタスクのデモンストレーションを活用しながら、マルチタスクのミッションに適応する適応型計画タスクにおいて、最先端の手法より 10% 以上優れています。
要約(オリジナル)
Offline reinforcement learning has shown tremendous success in behavioral planning by learning from previously collected demonstrations. However, decision-making in multitask missions still presents significant challenges. For instance, a mission might require an agent to explore an unknown environment, discover goals, and navigate to them, even if it involves interacting with obstacles along the way. Such behavioral planning problems are difficult to solve due to: a) agents failing to adapt beyond the single task learned through their reward function, and b) the inability to generalize to new environments not covered in the training demonstrations, e.g., environments where all doors were unlocked in the demonstrations. Consequently, state-of-the-art decision making methods are limited to missions where the required tasks are well-represented in the training demonstrations and can be solved within a short (temporal) planning horizon. To address this, we propose GenPlan: a stochastic and adaptive planner that leverages discrete-flow models for generative sequence modeling, enabling sample-efficient exploration and exploitation. This framework relies on an iterative denoising procedure to generate a sequence of goals and actions. This approach captures multi-modal action distributions and facilitates goal and task discovery, thereby enhancing generalization to out-of-distribution tasks and environments, i.e., missions not part of the training data. We demonstrate the effectiveness of our method through multiple simulation environments. Notably, GenPlan outperforms the state-of-the-art methods by over 10% on adaptive planning tasks, where the agent adapts to multi-task missions while leveraging demonstrations on single-goal-reaching tasks.
arxiv情報
| 著者 | Akash Karthikeyan,Yash Vardhan Pant |
| 発行日 | 2024-12-11 17:32:33+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google