IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors

要約

模倣学習はさまざまなロボットのタスクに適用されていますが、(1) ロボットがトレーニング データに表されていないエッジ ケース (分布の変化) に遭遇した場合、または (2) 人間のデモンストレーションが異種である場合、つまり、ロボットの周りで異なるパスをたどる場合には、困難が生じる可能性があります。
たとえば、障害(マルチモダリティ)。
インタラクティブ フリート ラーニング (IFL) は、タスクの実行中にロボットが遠隔の人間の遠隔操作者にアクセスし、時間の経過とともにそこから学習できるようにすることで、分布の変化を緩和しますが、マルチモダリティに対応する機能は備えていません。
最近の研究では、エネルギーベース モデル (EBM) を使用してマルチモーダル デモンストレーションを表現できる Implicit Behavior Cloning (IBC) が提案されています。
この研究では、暗黙的インタラクティブ フリート学習 (IIFL) を使用して、マルチモダリティと分散シフトの両方に対処することを提案します。これは、インタラクティブな模倣学習 (単一ロボット、単一人間設定を含む) への暗黙的ポリシーの最初の拡張です。
IIFL は、ジェフリーの発散を EBM に新たに適用して不確実性を定量化します。
IIFL は陽的手法よりも計算コストが高くなりますが、結果は、IIFL がシミュレーション実験において人的労力に対して 4.5 倍高い収益率を達成し、物理ブロック プッシュ タスクの成功率が (陽的) IFL、IBC、およびその他のベースラインを上回る 80% 高いことを示唆しています。
人間の監督は異質なものです。

要約(オリジナル)

Imitation learning has been applied to a range of robotic tasks, but can struggle when (1) robots encounter edge cases that are not represented in the training data (distribution shift) or (2) the human demonstrations are heterogeneous: taking different paths around an obstacle, for instance (multimodality). Interactive fleet learning (IFL) mitigates distribution shift by allowing robots to access remote human teleoperators during task execution and learn from them over time, but is not equipped to handle multimodality. Recent work proposes Implicit Behavior Cloning (IBC), which is able to represent multimodal demonstrations using energy-based models (EBMs). In this work, we propose addressing both multimodality and distribution shift with Implicit Interactive Fleet Learning (IIFL), the first extension of implicit policies to interactive imitation learning (including the single-robot, single-human setting). IIFL quantifies uncertainty using a novel application of Jeffreys divergence to EBMs. While IIFL is more computationally expensive than explicit methods, results suggest that IIFL achieves 4.5x higher return on human effort in simulation experiments and an 80% higher success rate in a physical block pushing task over (Explicit) IFL, IBC, and other baselines when human supervision is heterogeneous.

arxiv情報

著者 Gaurav Datta,Ryan Hoque,Anrui Gu,Eugen Solowjow,Ken Goldberg
発行日 2023-06-27 06:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク