RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

要約

ロボット工学の急速に進歩する分野では、デュアルアーム調整と複雑なオブジェクト操作は、高度な自律システムを開発するための不可欠な機能です。
ただし、多様で高品質のデモデータと現実世界に配置された評価ベンチマークの希少性は、そのような開発を厳しく制限しています。
これに対処するために、3D生成基盤モデルと大規模な言語モデルを使用して多様な専門家データセットを作成し、デュアルアームロボットタスクに現実的な評価された評価プラットフォームを提供する生成デジタルツインフレームワークであるRobotWinを紹介します。
具体的には、RobotWinは、単一の2D画像からさまざまなデジタル双子を作成し、現実的でインタラクティブなシナリオを生成します。
また、オブジェクトアノテーションを大規模な言語モデルと組み合わせてタスクを分解し、空間的制約を決定し、正確なロボット運動コードを生成する空間的関係認識コード生成フレームワークを導入します。
私たちのフレームワークは、シミュレートされたデータと実際の両方のデータの両方を備えた包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと現実世界のパフォーマンスの間のより良いアライメントを可能にします。
オープンソースのコボットマジックロボットプラットフォームを使用して、アプローチを検証しました。
Robotwin生成データで事前に訓練され、限られた現実世界のサンプルで微調整されたポリシーは、単一の腕のタスクで70%以上、実体データでトレーニングされたモデルと比較してデュアルアームタスクで40%以上成功率を改善することにより、デュアルアームロボット操作システムを強化するための重要な可能性を示しています。

要約(オリジナル)

In the rapidly advancing field of robotics, dual-arm coordination and complex object manipulation are essential capabilities for developing advanced autonomous systems. However, the scarcity of diverse, high-quality demonstration data and real-world-aligned evaluation benchmarks severely limits such development. To address this, we introduce RoboTwin, a generative digital twin framework that uses 3D generative foundation models and large language models to produce diverse expert datasets and provide a real-world-aligned evaluation platform for dual-arm robotic tasks. Specifically, RoboTwin creates varied digital twins of objects from single 2D images, generating realistic and interactive scenarios. It also introduces a spatial relation-aware code generation framework that combines object annotations with large language models to break down tasks, determine spatial constraints, and generate precise robotic movement code. Our framework offers a comprehensive benchmark with both simulated and real-world data, enabling standardized evaluation and better alignment between simulated training and real-world performance. We validated our approach using the open-source COBOT Magic Robot platform. Policies pre-trained on RoboTwin-generated data and fine-tuned with limited real-world samples demonstrate significant potential for enhancing dual-arm robotic manipulation systems by improving success rates by over 70% for single-arm tasks and over 40% for dual-arm tasks compared to models trained solely on real-world data.

arxiv情報

著者 Yao Mu,Tianxing Chen,Zanxin Chen,Shijia Peng,Zhiqian Lan,Zeyu Gao,Zhixuan Liang,Qiaojun Yu,Yude Zou,Mingkun Xu,Lunkai Lin,Zhiqiang Xie,Mingyu Ding,Ping Luo
発行日 2025-04-17 16:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO パーマリンク