要約
模倣学習はさまざまなロボットタスクに適用されていますが、ロボットがトレーニングデータに表されていないエッジケース(分布の変化など)に遭遇すると、苦戦する可能性があります。
インタラクティブ フリート ラーニング (IFL) は、タスクの実行中にロボットが遠隔の人間のスーパーバイザーにアクセスし、時間の経過とともにそこから学習できるようにすることで、分布の変化を緩和しますが、スーパーバイザーが異なれば、タスクを異なる方法でデモンストレーションする可能性があります。
最近の研究では、エネルギーベース モデル (EBM) を使用してマルチモーダル デモンストレーションを表現できる Implicit Behavior Cloning (IBC) が提案されています。
この研究では、Implicit Interactive Fleet Learning (IIFL) を提案します。これは、複数の異質な人間のスーパーバイザーから対話型模倣学習を行うための IBC に基づいて構築されたアルゴリズムです。
IIFL における重要な洞察は、ジェフリーの発散を使用した EBM の不確実性の定量化のための新しいアプローチです。
IIFL は陽的手法よりも計算コストが高くなりますが、結果は、IIFL が (陽的) IFL、IBC、およびその他のベースラインと比較して、シミュレーション実験で 2.8 倍高い成功率と、物理ブロック プッシュ タスクにおける人的労力に対する 4.5 倍の高い収益率を達成することを示唆しています。
。
要約(オリジナル)
Imitation learning has been applied to a range of robotic tasks, but can struggle when robots encounter edge cases that are not represented in the training data (i.e., distribution shift). Interactive fleet learning (IFL) mitigates distribution shift by allowing robots to access remote human supervisors during task execution and learn from them over time, but different supervisors may demonstrate the task in different ways. Recent work proposes Implicit Behavior Cloning (IBC), which is able to represent multimodal demonstrations using energy-based models (EBMs). In this work, we propose Implicit Interactive Fleet Learning (IIFL), an algorithm that builds on IBC for interactive imitation learning from multiple heterogeneous human supervisors. A key insight in IIFL is a novel approach for uncertainty quantification in EBMs using Jeffreys divergence. While IIFL is more computationally expensive than explicit methods, results suggest that IIFL achieves a 2.8x higher success rate in simulation experiments and a 4.5x higher return on human effort in a physical block pushing task over (Explicit) IFL, IBC, and other baselines.
arxiv情報
著者 | Gaurav Datta,Ryan Hoque,Anrui Gu,Eugen Solowjow,Ken Goldberg |
発行日 | 2023-10-20 05:43:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google