Signal Temporal Logic-Guided Apprenticeship Learning

要約

見習い制度の学習は、報酬を効果的に学習できるかどうかに大きく依存しており、したがってユーザーのデモンストレーションからポリシーを制御できます。
特に難しいのは、目的のタスクが時間的な依存関係を持つ多数のサブ目標で構成される設定です。
推定される報酬の質、ひいてはポリシーは通常、デモンストレーションの質によって制限され、これらの推定が不十分だと望ましくない結果につながる可能性があります。
このレターでは、高レベルのタスク目標を記述する時相論理仕様をグラフにエンコードして、デモンストレーターと学習者エージェントの行動を推論して、推定される報酬とポリシーの品質を向上させる時間ベースのメトリクスを定義する方法を示します。
さまざまなロボット マニピュレータ シミュレーションの実験を通じて、制御ポリシーを学習するために必要なデモンストレーションの数を大幅に改善することで、私たちのフレームワークが先行文献の欠点をどのように克服するかを示します。

要約(オリジナル)

Apprenticeship learning crucially depends on effectively learning rewards, and hence control policies from user demonstrations. Of particular difficulty is the setting where the desired task consists of a number of sub-goals with temporal dependencies. The quality of inferred rewards and hence policies are typically limited by the quality of demonstrations, and poor inference of these can lead to undesirable outcomes. In this letter, we show how temporal logic specifications that describe high level task objectives, are encoded in a graph to define a temporal-based metric that reasons about behaviors of demonstrators and the learner agent to improve the quality of inferred rewards and policies. Through experiments on a diverse set of robot manipulator simulations, we show how our framework overcomes the drawbacks of prior literature by drastically improving the number of demonstrations required to learn a control policy.

arxiv情報

著者 Aniruddh G. Puranic,Jyotirmoy V. Deshmukh,Stefanos Nikolaidis
発行日 2023-11-09 00:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク