3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing

要約

触覚と視覚はどちらも、人間が環境とのきめ細かなインタラクションを行うために非常に重要です。
ロボット向けに同様のマルチモーダルセンシング機能を開発すると、ロボットの操作スキルを大幅に向上および拡張できます。
この論文では、器用な両手操作用に設計されたマルチモーダル センシングおよび学習システムである \textbf{3D-ViTac} を紹介します。
私たちのシステムは、それぞれが 3$mm^2$ のエリアをカバーする高密度のセンシング ユニットを備えた触覚センサーを特徴としています。
これらのセンサーは低コストで柔軟性があり、物理的接触を詳細かつ広範囲にカバーし、視覚情報を効果的に補完します。
触覚データと視覚データを統合するために、それらを 3D 構造と空間関係を維持する統一された 3D 表現空間に融合します。
マルチモーダル表現は、模倣学習のための普及政策と組み合わせることができます。
具体的なハードウェア実験を通じて、低コストのロボットでも正確な操作を実行でき、特に壊れやすい物品との安全なやり取りや、手に持った操作を伴う長期的なタスクの実行において、視覚のみのポリシーを大幅に上回るパフォーマンスを発揮できることを実証しました。
私たちのプロジェクト ページは \url{https://binghao-huang.github.io/3D-ViTac/} からご覧いただけます。

要約(オリジナル)

Tactile and visual perception are both crucial for humans to perform fine-grained interactions with their environment. Developing similar multi-modal sensing capabilities for robots can significantly enhance and expand their manipulation skills. This paper introduces \textbf{3D-ViTac}, a multi-modal sensing and learning system designed for dexterous bimanual manipulation. Our system features tactile sensors equipped with dense sensing units, each covering an area of 3$mm^2$. These sensors are low-cost and flexible, providing detailed and extensive coverage of physical contacts, effectively complementing visual information. To integrate tactile and visual data, we fuse them into a unified 3D representation space that preserves their 3D structures and spatial relationships. The multi-modal representation can then be coupled with diffusion policies for imitation learning. Through concrete hardware experiments, we demonstrate that even low-cost robots can perform precise manipulations and significantly outperform vision-only policies, particularly in safe interactions with fragile items and executing long-horizon tasks involving in-hand manipulation. Our project page is available at \url{https://binghao-huang.github.io/3D-ViTac/}.

arxiv情報

著者 Binghao Huang,Yixuan Wang,Xinyi Yang,Yiyue Luo,Yunzhu Li
発行日 2024-10-31 16:22:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク