Leveraging Demonstrator-perceived Precision for Safe Interactive Imitation Learning of Clearance-limited Tasks

要約

インタラクティブな模倣学習は、人間のデモンストレーションにクエリを実行して学習ポリシーの実行とデータ収集を繰り返し行うことで、ロボットがタスクを学習できる効率的なモデルフリーの方法です。
ただし、産業用挿入など、認可が制限されているタスクに未成熟なポリシーを導入すると、重大な衝突リスクが生じます。
このようなタスクでは、ロボットが衝突の危険を検出し、衝突が差し迫っている場合に人間に制御を譲って介入を要求する必要があります。
前者には環境の正確なモデルが必要ですが、その必要性により IIL アプリケーションの範囲が大幅に制限されます。
対照的に、人間はタスクを実行するときに衝突を避けるために行動を調整することで、環境の正確さを暗黙的に示します。
この論文は、人間の行動にヒントを得て、デモンストレーターが知覚した精度を人間の介入の基準として使用する、デモンストレーターが知覚した精度を意識した対話型模倣学習 (DPIIL) と呼ばれる新しい対話型学習方法を紹介します。
DPIIL は、人間によるデモンストレーションで示される速度と精度のトレードオフを観察することで精度を把握し、高い精度が推定される状態では制御を人間に委ねて衝突を回避します。
DPIIL は、環境の正確な情報を明示的に提供しなくても、対話型ポリシー学習の安全性を向上させ、効率を確保します。
私たちは、シミュレーションと、UR5e 6-DOF ロボット アームを訓練して組み立てタスクを実行する実際のロボット実験を通じて、DPIIL の有効性を評価しました。
その結果、トレーニングの安全性が大幅に向上し、他の学習方法と比較して最高のパフォーマンスが得られました。

要約(オリジナル)

Interactive imitation learning is an efficient, model-free method through which a robot can learn a task by repetitively iterating an execution of a learning policy and a data collection by querying human demonstrations. However, deploying unmatured policies for clearance-limited tasks, like industrial insertion, poses significant collision risks. For such tasks, a robot should detect the collision risks and request intervention by ceding control to a human when collisions are imminent. The former requires an accurate model of the environment, a need that significantly limits the scope of IIL applications. In contrast, humans implicitly demonstrate environmental precision by adjusting their behavior to avoid collisions when performing tasks. Inspired by human behavior, this paper presents a novel interactive learning method that uses demonstrator-perceived precision as a criterion for human intervention called Demonstrator-perceived Precision-aware Interactive Imitation Learning (DPIIL). DPIIL captures precision by observing the speed-accuracy trade-off exhibited in human demonstrations and cedes control to a human to avoid collisions in states where high precision is estimated. DPIIL improves the safety of interactive policy learning and ensures efficiency without explicitly providing precise information of the environment. We assessed DPIIL’s effectiveness through simulations and real-robot experiments that trained a UR5e 6-DOF robotic arm to perform assembly tasks. Our results significantly improved training safety, and our best performance compared favorably with other learning methods.

arxiv情報

著者 Hanbit Oh,Takamitsu Matsubara
発行日 2024-02-21 01:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク