要約
模倣学習は、シミュレーションが難しい環境での人間のデモンストレーションに依存しているため、この方法に力制御を含めると、速度を単純に変更した場合でも、トレーニング データが不足してしまいます。
データ拡張の分野はデータ不足に対処していますが、ロボット操作のためのデータ拡張の従来の方法は、シミュレーションベースの方法または位置制御のためのダウンサンプリングに限定されています。
この論文では、力の制御に適用でき、現実世界のデータセットの利点を維持できる、新しいデータ拡張方法を提案します。
私たちは、可変速度での環境反応の量と質の両方を向上させるために、実世界のデータ拡張として可変速度でのティーチングプレイバックを適用しました。
位置力制御を備えた模倣学習手法を用いて、バイラテラル制御による模倣学習の実験を行った。
私たちは、ピックアンドプレイスとワイピングという 2 つのタスクに対する現実世界のデータ拡張の効果を、それぞれ固定速度での 2 人の人間によるデモンストレーションから、可変速度で評価しました。
その結果、現実世界の反応の速度を単純に変更するだけで成功率が最大 55% 向上し、環境反応を可変速度で収集することで持続時間/周波数コマンドに沿った精度が向上することがわかりました。
要約(オリジナル)
Because imitation learning relies on human demonstrations in hard-to-simulate settings, the inclusion of force control in this method has resulted in a shortage of training data, even with a simple change in speed. Although the field of data augmentation has addressed the lack of data, conventional methods of data augmentation for robot manipulation are limited to simulation-based methods or downsampling for position control. This paper proposes a novel method of data augmentation that is applicable to force control and preserves the advantages of real-world datasets. We applied teaching-playback at variable speeds as real-world data augmentation to increase both the quantity and quality of environmental reactions at variable speeds. An experiment was conducted on bilateral control-based imitation learning using a method of imitation learning equipped with position-force control. We evaluated the effect of real-world data augmentation on two tasks, pick-and-place and wiping, at variable speeds, each from two human demonstrations at fixed speed. The results showed a maximum 55% increase in success rate from a simple change in speed of real-world reactions and improved accuracy along the duration/frequency command by gathering environmental reactions at variable speeds.
arxiv情報
著者 | Nozomu Masuya,Hiroshi Sato,Koki Yamane,Takuya Kusume,Sho Sakaino,Toshiaki Tsuji |
発行日 | 2024-12-04 11:51:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google