要約
デモンストレーション(LFD)から学ぶことは、ロボットが新しいスキルを獲得するための一般的なアプローチですが、ほとんどのLFDメソッドは人間のデモンストレーションで不完全さに悩まされています。
以前の研究では、通常、これらの下位微小性をランダムノイズとして扱います。
この論文では、非専門家のデモンストレーションで非最適な行動を研究し、それらが体系的であり、私たちがデモンストレーションサイドトラックと呼ぶものを形成していることを示しています。
長距離ロボットタスクを実行している40人の参加者がパブリックスペース調査を使用して、シミュレーションのセットアップを再現し、すべてのデモンストレーションに注釈を付けました。
4種類のサイドトラック(探査、間違い、アライメント、一時停止)と1つのコントロールパターン(1次元コントロール)を特定します。
サイドトラックは参加者全体に頻繁に表示され、その時間的および空間的分布はタスクコンテキストに結び付けられています。
また、ユーザーのコントロールパターンはコントロールインターフェイスに依存することがわかります。
これらの洞察は、LFDアルゴリズムを改善し、ラボトレーニングと実世界の展開のギャップを埋めるための準最適なデモンストレーションのより良いモデルの必要性を指摘しています。
すべてのデモンストレーション、インフラストラクチャ、および注釈は、https://github.com/aabl-lab/human-demonstration-sidetracksで入手できます。
要約(オリジナル)
Learning from Demonstration (LfD) is a popular approach for robots to acquire new skills, but most LfD methods suffer from imperfections in human demonstrations. Prior work typically treats these suboptimalities as random noise. In this paper we study non-optimal behaviors in non-expert demonstrations and show that they are systematic, forming what we call demonstration sidetracks. Using a public space study with 40 participants performing a long-horizon robot task, we recreated the setup in simulation and annotated all demonstrations. We identify four types of sidetracks (Exploration, Mistake, Alignment, Pause) and one control pattern (one-dimension control). Sidetracks appear frequently across participants, and their temporal and spatial distribution is tied to task context. We also find that users’ control patterns depend on the control interface. These insights point to the need for better models of suboptimal demonstrations to improve LfD algorithms and bridge the gap between lab training and real-world deployment. All demonstrations, infrastructure, and annotations are available at https://github.com/AABL-Lab/Human-Demonstration-Sidetracks.
arxiv情報
著者 | Shijie Fang,Hang Yu,Qidi Fang,Reuben M. Aronson,Elaine S. Short |
発行日 | 2025-06-12 20:04:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google