要約
この研究では、既存のタスク プリミティブを前提として、エージェントが線形時相論理 (LTL) 仕様を満たすためのゼロショット メカニズムを開発します。
多くの場合、自律ロボットは、実行時まで不明な空間的および時間的目標を満たす必要があります。
従来の研究では、LTL を使用して指定された高レベルのタスクを実行できる学習ポリシーを学習することで問題に対処していましたが、その仕様は学習プロセスに組み込まれていました。
したがって、仕様に変更を加える場合は、ポリシーを再トレーニングする必要があります。
他の関連研究では、仕様変更があった場合に完全なポリシーの再トレーニングは必要ありませんが、満足を保証するためにスキル マシンの微調整が必要なスキル マシンを作成することで問題に対処しています。
我々は、再トレーニングや微調整を行わずに任意の LTL 仕様を満たすために使用できる一連の最小違反 (MV) タスクの基本ポリシーを学習する、より柔軟なアプローチを提案します。
タスク プリミティブは、強化学習 (RL) 手法を使用してオフラインで学習し、展開時にブール合成を使用して組み合わせることができます。
この作業は、環境と MV タスクのプリミティブ ポリシーのセットを考慮して、LTL 仕様に対する決定的で曖昧さのない実現可能なソリューションを解決するために、環境の遷移システム (TS) 表現の作成と枝刈りに焦点を当てています。
プルーニングされた TS が決定的であり、実現不可能な遷移が含まれておらず、健全であることを示します。
シミュレーションを通じて、アプローチが実行可能であることを示し、MV ポリシーが期待したシンボルを生成することを検証します。
要約(オリジナル)
This work develops a zero-shot mechanism for an agent to satisfy a Linear Temporal Logic (LTL) specification given existing task primitives. Oftentimes, autonomous robots need to satisfy spatial and temporal goals that are unknown until run time. Prior research addresses the problem by learning policies that are capable of executing a high-level task specified using LTL, but they incorporate the specification into the learning process; therefore, any change to the specification requires retraining the policy. Other related research addresses the problem by creating skill-machines which, given a specification change, do not require full policy retraining but require fine-tuning on the skill-machine to guarantee satisfaction. We present a more a flexible approach — to learn a set of minimum-violation (MV) task primitive policies that can be used to satisfy arbitrary LTL specifications without retraining or fine-tuning. Task primitives can be learned offline using reinforcement learning (RL) methods and combined using Boolean composition at deployment. This work focuses on creating and pruning a transition system (TS) representation of the environment in order to solve for deterministic, non-ambiguous, and feasible solutions to LTL specifications given an environment and a set of MV task primitive policies. We show that our pruned TS is deterministic, contains no unrealizable transitions, and is sound. Through simulation, we show that our approach is executable and we verify our MV policies produce the expected symbols.
arxiv情報
著者 | Taylor Bergeron,Zachary Serlin,Kevin Leahy |
発行日 | 2024-08-08 04:49:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google