RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills

要約

ツールデザインの能力を備えたロボットを支えることは、そうでなければ手に負えない複雑な操作タスクを解決できるために重要です。
最近の生成フレームワークは、3Dシーンや報酬機能などのタスク設定を自動的に合成できますが、ツール使用シナリオの課題にまだ対処していません。
ロボットマニピュレーターが処理するのが難しいため、人間が設計したツールを単純に取得することは理想的ではないかもしれません。
さらに、既存のツール設計アプローチは、限られたパラメーターチューニングを備えた事前定義されたテンプレートに依存するか、ツールの作成に最適化されていない一般的な3D生成方法を適用します。
これらの制限に対処するために、ロボット操作のためにツールを設計および使用するために物理シミュレーションによって提供されるより正確な物理学とともに、ビジョン言語モデル(VLM)に埋め込まれた暗黙の物理的知識を活用する自動化されたパイプラインであるロボットスミスを提案します。
私たちのシステム(1)コラボレーティブVLMエージェントを使用してツール設計を繰り返し提案し、(2)ツール使用のための低レベルのロボット軌道を生成し、(3)タスクパフォ​​ーマンスのためにツールジオメトリと使用を共同で最適化します。
剛性、変形、流体のオブジェクトを含む幅広い操作タスクにわたるアプローチを評価します。
実験は、私たちの方法が、タスクの成功率と全体的なパフォーマンスの両方の観点から、強力なベースラインよりも一貫して優れていることを示しています。
特に、私たちのアプローチは50.0 \%の平均成功率を達成し、3D世代(21.4%)やツール検索(11.1%)などの他のベースラインを大幅に超えています。
最後に、システムを現実世界の設定に展開し、生成されたツールとその使用計画が物理的実行に効果的に転送され、アプローチの実用性と一般化能力を検証することを実証します。

要約(オリジナル)

Endowing robots with tool design abilities is critical for enabling them to solve complex manipulation tasks that would otherwise be intractable. While recent generative frameworks can automatically synthesize task settings, such as 3D scenes and reward functions, they have not yet addressed the challenge of tool-use scenarios. Simply retrieving human-designed tools might not be ideal since many tools (e.g., a rolling pin) are difficult for robotic manipulators to handle. Furthermore, existing tool design approaches either rely on predefined templates with limited parameter tuning or apply generic 3D generation methods that are not optimized for tool creation. To address these limitations, we propose RobotSmith, an automated pipeline that leverages the implicit physical knowledge embedded in vision-language models (VLMs) alongside the more accurate physics provided by physics simulations to design and use tools for robotic manipulation. Our system (1) iteratively proposes tool designs using collaborative VLM agents, (2) generates low-level robot trajectories for tool use, and (3) jointly optimizes tool geometry and usage for task performance. We evaluate our approach across a wide range of manipulation tasks involving rigid, deformable, and fluid objects. Experiments show that our method consistently outperforms strong baselines in terms of both task success rate and overall performance. Notably, our approach achieves a 50.0\% average success rate, significantly surpassing other baselines such as 3D generation (21.4%) and tool retrieval (11.1%). Finally, we deploy our system in real-world settings, demonstrating that the generated tools and their usage plans transfer effectively to physical execution, validating the practicality and generalization capabilities of our approach.

arxiv情報

著者 Chunru Lin,Haotian Yuan,Yian Wang,Xiaowen Qiu,Tsun-Hsuan Wang,Minghao Guo,Bohan Wang,Yashraj Narang,Dieter Fox,Chuang Gan
発行日 2025-06-17 17:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク