A Framework for Learning from Demonstration with Minimal Human Effort

要約

私たちは、システムの制御を人間の遠隔操作者と自律制御の間で切り替えることができる共有自律性のコンテキストでロボット学習を検討します。
この設定では、人間の時間に関連するコストがかかる強化学習とデモンストレーションからの学習に取り組みます。
このコストは、ロボットを遠隔操作したり、ロボットを障害から回復したりするために必要な人間の時間を表します。
エピソードごとに、エージェントは人間の遠隔操作を要求するか、自律コントローラーの 1 つを使用するかを選択する必要があります。
私たちのアプローチでは、エピソードの初期状態を考慮して、各コントローラーの成功確率を予測する方法を学習します。
これは、エピソードのコントローラーを選択するために、コンテキストに応じたマルチアーム バンディット アルゴリズムで使用されます。
コントローラーはデモンストレーションと強化学習によってオンラインで学習されるため、自律的なパフォーマンスが向上し、システムはより経験豊富な遠隔オペレーターへの依存度が低くなります。
コントローラー選択に対する私たちのアプローチにより、2 つのシミュレートされたタスクと 1 つの現実世界のタスクを実行するための人的コストが削減されることを示します。

要約(オリジナル)

We consider robot learning in the context of shared autonomy, where control of the system can switch between a human teleoperator and autonomous control. In this setting we address reinforcement learning, and learning from demonstration, where there is a cost associated with human time. This cost represents the human time required to teleoperate the robot, or recover the robot from failures. For each episode, the agent must choose between requesting human teleoperation, or using one of its autonomous controllers. In our approach, we learn to predict the success probability for each controller, given the initial state of an episode. This is used in a contextual multi-armed bandit algorithm to choose the controller for the episode. A controller is learnt online from demonstrations and reinforcement learning so that autonomous performance improves, and the system becomes less reliant on the teleoperator with more experience. We show that our approach to controller selection reduces the human cost to perform two simulated tasks and a single real-world task.

arxiv情報

著者 Marc Rigter,Bruno Lacerda,Nick Hawes
発行日 2023-06-15 15:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク