要約
AIエージェントの実世界展開を可能にするためには、Learning-from-Demonstrations(LfD)ポリシーにルールをシームレスに統合することが重要な要件となる。最近、時空間制約としてルールを符号化するのに有効な言語として、信号時間論理(STL)が示されている。本研究では、モンテカルロ木探索(MCTS)を用いて、STL仕様をバニラLfDポリシーに統合し、制約の満足度を向上させる手段を提案する。MCTSのヒューリスティックにSTLのロバストネス値を追加し、より高い制約満足度を持つ枝にツリーサーチをバイアスをかけることを提案する。ドメインに依存しない方法は、事前に訓練されたLfDアルゴリズムにSTLルールをオンラインで統合するために適用できるが、我々はオフラインLfDポリシーとして、ゴール条件付き生成逆行列模倣学習を選択する。提案手法を、無電源飛行場周辺における一般航空機の軌道計画というドメインに適用する。実世界のデータで訓練したシミュレータを用いた結果、STLヒューリスティックを用いないベースラインのLfD手法に比べて60%の性能向上が見られた。
要約(オリジナル)
Seamlessly integrating rules in Learning-from-Demonstrations (LfD) policies is a critical requirement to enable the real-world deployment of AI agents. Recently, Signal Temporal Logic (STL) has been shown to be an effective language for encoding rules as spatio-temporal constraints. This work uses Monte Carlo Tree Search (MCTS) as a means of integrating STL specification into a vanilla LfD policy to improve constraint satisfaction. We propose augmenting the MCTS heuristic with STL robustness values to bias the tree search towards branches with higher constraint satisfaction. While the domain-independent method can be applied to integrate STL rules online into any pre-trained LfD algorithm, we choose goal-conditioned Generative Adversarial Imitation Learning as the offline LfD policy. We apply the proposed method to the domain of planning trajectories for General Aviation aircraft around a non-towered airfield. Results using the simulator trained on real-world data showcase 60% improved performance over baseline LfD methods that do not use STL heuristics.
arxiv情報
著者 | Jasmine Jerry Aloor,Jay Patrikar,Parv Kapoor,Jean Oh,Sebastian Scherer |
発行日 | 2023-03-06 17:51:25+00:00 |
arxivサイト | arxiv_id(pdf) |