VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation

要約

両手の器用な操作は、それぞれの手の自由度とその調整が高いため、ロボット工学において依然として大きな課題となっています。
既存の片手操作技術は、人間によるデモンストレーションを利用して RL 手法をガイドすることがよくありますが、複数のサブスキルを含む複雑な両手作業に一般化することはできません。
この論文では、人間のような両手操作を可能にするカリキュラム RL を促進するために、視覚・触覚・動作の事前トレーニングとオブジェクトの理解を組み合わせた新しいフレームワークである VTAO-BiManip を紹介します。
手の動きデータを組み込むことで事前学習を改善し、バイナリ触覚フィードバックよりも効果的な両手調整のガイダンスを提供します。
私たちの事前トレーニング モデルは、マスクされたマルチモーダル入力を使用して将来のアクションだけでなくオブジェクトの姿勢やサイズも予測し、クロスモーダル正則化を容易にします。
マルチスキル学習の課題に対処するために、トレーニングを安定させるための 2 段階カリキュラム RL アプローチを導入します。
ボトルのキャップを外すタスクでこの方法を評価し、シミュレート環境と現実世界の両方の環境でその有効性を実証します。
私たちのアプローチは、既存の視覚触覚事前トレーニング方法を 20% 以上上回る成功率を達成しています。

要約(オリジナル)

Bimanual dexterous manipulation remains significant challenges in robotics due to the high DoFs of each hand and their coordination. Existing single-hand manipulation techniques often leverage human demonstrations to guide RL methods but fail to generalize to complex bimanual tasks involving multiple sub-skills. In this paper, we introduce VTAO-BiManip, a novel framework that combines visual-tactile-action pretraining with object understanding to facilitate curriculum RL to enable human-like bimanual manipulation. We improve prior learning by incorporating hand motion data, providing more effective guidance for dual-hand coordination than binary tactile feedback. Our pretraining model predicts future actions as well as object pose and size using masked multimodal inputs, facilitating cross-modal regularization. To address the multi-skill learning challenge, we introduce a two-stage curriculum RL approach to stabilize training. We evaluate our method on a bottle-cap unscrewing task, demonstrating its effectiveness in both simulated and real-world environments. Our approach achieves a success rate that surpasses existing visual-tactile pretraining methods by over 20%.

arxiv情報

著者 Zhengnan Sun,Zhaotai Shi,Jiayin Chen,Qingtao Liu,Yu Cui,Qi Ye,Jiming Chen
発行日 2025-01-07 08:14:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク