D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation

要約

2つの腕の間で必要な高次元と緊密な調整のために、双方向の操作を学ぶことは困難です。
手首に取り付けられたカメラを使用する目を見張るような模倣学習は、タスクに関連するビューに焦点を当てることにより、知覚を簡素化します。
ただし、多様なデモンストレーションの収集は依然としてコストがかかり、スケーラブルなデータ増強の必要性を動機付けています。
以前の作業では、単一の腕の設定での視覚的増強を調査していますが、これらのアプローチを両手操作に拡張するには、両腕全体で視点一貫性のある観測を生成し、有効で実現可能な対応するアクションラベルを生成する必要があります。
この作業では、調整されたデュアルアームデータ増強(D-CODA)の拡散を提案します。これは、拡散モデルを訓練するために拡散モデルを訓練し、両腕を同時に腕に合成しながら、拡散モデルを訓練するための拡散モデルを訓練するオフラインデータ増強の方法です。
制約された最適化を採用して、グリッパー間接触を含む増強された状態が、双方向の調整に適した制約に準拠していることを保証します。
5つのシミュレーションと3つの実際のタスクでD-Codaを評価します。
2250のシミュレーショントライアルと300の実世界の試験における我々の結果は、それがベースラインとアブレーションを上回ることを示しており、目の中の両手操作におけるスケーラブルなデータ増強の可能性を示しています。
プロジェクトのWebサイトは、https://dcodaaug.github.io/d-coda/にあります。

要約(オリジナル)

Learning bimanual manipulation is challenging due to its high dimensionality and tight coordination required between two arms. Eye-in-hand imitation learning, which uses wrist-mounted cameras, simplifies perception by focusing on task-relevant views. However, collecting diverse demonstrations remains costly, motivating the need for scalable data augmentation. While prior work has explored visual augmentation in single-arm settings, extending these approaches to bimanual manipulation requires generating viewpoint-consistent observations across both arms and producing corresponding action labels that are both valid and feasible. In this work, we propose Diffusion for COordinated Dual-arm Data Augmentation (D-CODA), a method for offline data augmentation tailored to eye-in-hand bimanual imitation learning that trains a diffusion model to synthesize novel, viewpoint-consistent wrist-camera images for both arms while simultaneously generating joint-space action labels. It employs constrained optimization to ensure that augmented states involving gripper-to-object contacts adhere to constraints suitable for bimanual coordination. We evaluate D-CODA on 5 simulated and 3 real-world tasks. Our results across 2250 simulation trials and 300 real-world trials demonstrate that it outperforms baselines and ablations, showing its potential for scalable data augmentation in eye-in-hand bimanual manipulation. Our project website is at: https://dcodaaug.github.io/D-CODA/.

arxiv情報

著者 I-Chun Arthur Liu,Jason Chen,Gaurav Sukhatme,Daniel Seita
発行日 2025-05-08 00:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク