VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections

要約

模倣学習 (IL) は、ロボット工学における強力なアプローチとして登場し、人間の動作を模倣することでロボットが新しいスキルを習得できるようにします。
その可能性にもかかわらず、IL のデータ収集プロセスは、物流上の困難と高品質のデモンストレーションの取得に伴う高額なコストにより、依然として大きな課題となっています。
これらの問題に対処するために、我々は、VITAL と呼ばれる両手操作タスク用の低コスト視覚遠隔操作システムを提案します。
私たちのアプローチでは、手頃な価格のハードウェアと視覚処理技術を活用してデモンストレーションを収集し、それを拡張して模倣学習用の広範なトレーニング データセットを作成します。
実際の環境とシミュレートされた環境の両方と人間参加型の修正を利用することで、学習されたポリシーの一般化可能性と堅牢性が強化されます。
私たちは、ボトルの収集、物体の積み上げ、ハンマーで叩くなど、さまざまな複雑さのタスクに焦点を当て、シミュレートされたロボット設定と実際のロボット設定で数回の実験を通じてメソッドを評価しました。
私たちの実験結果は、シミュレートされたデータから堅牢なロボット ポリシーを学習する際のアプローチの有効性を検証し、人間参加型の修正と現実世界のデータ統合によって大幅に改善されました。
さらに、ドリンクトレイの設定などの新しいタスクに一般化するフレームワークの機能を実証し、現実世界の幅広い両手操作タスクを処理する適応性と可能性を示します。
実験のビデオは、https://youtu.be/YeVAMRqRe64?si=R179xDlEGc7nPu8i でご覧いただけます。

要約(オリジナル)

Imitation Learning (IL) has emerged as a powerful approach in robotics, allowing robots to acquire new skills by mimicking human actions. Despite its potential, the data collection process for IL remains a significant challenge due to the logistical difficulties and high costs associated with obtaining high-quality demonstrations. To address these issues, we propose a low-cost visual teleoperation system for bimanual manipulation tasks, called VITAL. Our approach leverages affordable hardware and visual processing techniques to collect demonstrations, which are then augmented to create extensive training datasets for imitation learning. We enhance the generalizability and robustness of the learned policies by utilizing both real and simulated environments and human-in-the-loop corrections. We evaluated our method through several rounds of experiments in simulated and real-robot settings, focusing on tasks of varying complexity, including bottle collecting, stacking objects, and hammering. Our experimental results validate the effectiveness of our approach in learning robust robot policies from simulated data, significantly improved by human-in-the-loop corrections and real-world data integration. Additionally, we demonstrate the framework’s capability to generalize to new tasks, such as setting a drink tray, showcasing its adaptability and potential for handling a wide range of real-world bimanual manipulation tasks. A video of the experiments can be found at: https://youtu.be/YeVAMRqRe64?si=R179xDlEGc7nPu8i

arxiv情報

著者 Hamidreza Kasaei,Mohammadreza Kasaei
発行日 2024-07-30 23:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク