Learning Visuotactile Skills with Two Multifingered Hands

要約

人間のような器用さ、知覚経験、動作パターンを再現することを目的として、多指の手と視覚触覚データを備えた両手システムを使用して、人間のデモンストレーションからの学習を探索します。
2 つの重大な課題が存在します。1 つは、多指ハンドを備えた双腕セットアップに適した手頃な価格でアクセス可能な遠隔操作システムの欠如、もう 1 つはタッチ センシングを備えた多指ハンド ハードウェアの不足です。
最初の課題に取り組むために、私たちは、効率的なデータ収集を可能にするソフトウェア スイートを補完した、既製の電子機器を利用する低コストのハンドアーム遠隔操作システムである HATO を開発しました。
包括的なソフトウェア スイートは、マルチモーダル データ処理、スケーラブルなポリシー学習、スムーズなポリシー展開もサポートします。
後者の課題に取り組むために、タッチ センサーを備えた 2 つの義手を研究用に再利用することで、新しいハードウェアの適応を導入します。
私たちのシステムから収集された視覚触覚データを使用して、私たちは、複数の指の器用さとタッチフィードバックなしでは達成するのが難しい、長期にわたる高精度のタスクを完了するためのスキルを学びます。
さらに、データセットのサイズ、センシングモダリティ、視覚入力の前処理がポリシー学習に及ぼす影響を実証的に調査します。
私たちの結果は、視覚触覚データからの両手多指操作における有望な一歩を示しています。
ビデオ、コード、データセットは https://toruowo.github.io/hato/ にあります。

要約(オリジナル)

Aiming to replicate human-like dexterity, perceptual experiences, and motion patterns, we explore learning from human demonstrations using a bimanual system with multifingered hands and visuotactile data. Two significant challenges exist: the lack of an affordable and accessible teleoperation system suitable for a dual-arm setup with multifingered hands, and the scarcity of multifingered hand hardware equipped with touch sensing. To tackle the first challenge, we develop HATO, a low-cost hands-arms teleoperation system that leverages off-the-shelf electronics, complemented with a software suite that enables efficient data collection; the comprehensive software suite also supports multimodal data processing, scalable policy learning, and smooth policy deployment. To tackle the latter challenge, we introduce a novel hardware adaptation by repurposing two prosthetic hands equipped with touch sensors for research. Using visuotactile data collected from our system, we learn skills to complete long-horizon, high-precision tasks which are difficult to achieve without multifingered dexterity and touch feedback. Furthermore, we empirically investigate the effects of dataset size, sensing modality, and visual input preprocessing on policy learning. Our results mark a promising step forward in bimanual multifingered manipulation from visuotactile data. Videos, code, and datasets can be found at https://toruowo.github.io/hato/ .

arxiv情報

著者 Toru Lin,Yu Zhang,Qiyang Li,Haozhi Qi,Brent Yi,Sergey Levine,Jitendra Malik
発行日 2024-05-22 22:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク