要約
複数段階の器用な操作は、家庭のシナリオでは基本的なスキルですが、ロボット工学では依然として未開発の領域です。
この論文では、単一のエンドツーエンド モデルに依存するのではなく、操作プロセスの各ステップが効果的なモダリティ入力に基づいた専用のポリシーで対処されるモジュール型アプローチを提案します。
これを実証するために、器用なロボット ハンドが箱を持ち上げて回転させる操作タスクを実行します。
神経科学からの洞察に基づいて、このタスクは、人間の脳で採用されている主要な感覚様式に基づいて、1) 手を伸ばす、2) 掴んで持ち上げる、3) 手の回転という 3 つのサブスキルに分解されます。
各サブスキルは、実用的な観点から、それぞれ古典的なコントローラー、視覚-言語-行動モデル、およびフォース フィードバックを備えた強化学習ポリシーという異なる方法を使用して対処されます。
私たちのアプローチの実現可能性を実証するために、実際のロボットでパイプラインをテストしました。
この研究の主な貢献は、神経科学にヒントを得た、複数段階の器用な操作のためのモダリティ主導の方法論を提示したことにあります。
要約(オリジナル)
Multi-step dexterous manipulation is a fundamental skill in household scenarios, yet remains an underexplored area in robotics. This paper proposes a modular approach, where each step of the manipulation process is addressed with dedicated policies based on effective modality input, rather than relying on a single end-to-end model. To demonstrate this, a dexterous robotic hand performs a manipulation task involving picking up and rotating a box. Guided by insights from neuroscience, the task is decomposed into three sub-skills, 1)reaching, 2)grasping and lifting, and 3)in-hand rotation, based on the dominant sensory modalities employed in the human brain. Each sub-skill is addressed using distinct methods from a practical perspective: a classical controller, a Vision-Language-Action model, and a reinforcement learning policy with force feedback, respectively. We tested the pipeline on a real robot to demonstrate the feasibility of our approach. The key contribution of this study lies in presenting a neuroscience-inspired, modality-driven methodology for multi-step dexterous manipulation.
arxiv情報
著者 | Naoki Wake,Atsushi Kanehira,Daichi Saito,Jun Takamatsu,Kazuhiro Sasabuchi,Hideki Koike,Katsushi Ikeuchi |
発行日 | 2024-12-15 23:05:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google