Blox-Net: Generative Design-for-Robot-Assembly Using VLM Supervision, Physics Simulation, and a Robot with Reset

要約

生成 AI システムは、テキスト、コード、画像の作成において優れた機能を示しています。
産業用「アセンブリのための設計」研究の豊かな歴史に触発されて、ロボットアセンブリのためのジェネレーティブ デザイン (GDfRA) という新しい問題を紹介します。
このタスクは、自然言語プロンプト (「キリン」など) と、3D プリントされたブロックなどの利用可能な物理コンポーネントのイメージに基づいてアセンブリを生成することです。
出力は、アセンブリ、これらのコンポーネントの空間配置、およびこのアセンブリを構築するためのロボットへの指示です。
出力は、1) 要求されたオブジェクトに似ていること、2) 吸引グリッパーを備えた 6 DoF ロボット アームによって確実に組み立てられる必要があります。
次に、生成ビジョン言語モデルと、コンピューター ビジョン、シミュレーション、摂動解析、動作計画、および物理的なロボットの実験における確立された手法を組み合わせて、最小限の人間の監視で GDfRA の問題のクラスを解決する GDfRA システムである Blox-Net を紹介します。
Blox-Net は、設計されたアセンブリの「認識性」において 63.5% というトップ 1 の精度を達成しました (たとえば、VLM によって判断されたキリンに似ているなど)。
これらの設計は、自動摂動再設計の後、ロボットによって確実に組み立てられ、組み立て前のリセット時にのみ人間の介入があり、10 回の連続組み立て反復にわたってほぼ完璧な成功を達成しました。
驚くべきことに、テキストの単語 (「キリン」) から信頼性の高い物理的な組み立てに至るこのデザイン プロセス全体は、人間の介入なしで実行されます。

要約(オリジナル)

Generative AI systems have shown impressive capabilities in creating text, code, and images. Inspired by the rich history of research in industrial ”Design for Assembly”, we introduce a novel problem: Generative Design-for-Robot-Assembly (GDfRA). The task is to generate an assembly based on a natural language prompt (e.g., ”giraffe”) and an image of available physical components, such as 3D-printed blocks. The output is an assembly, a spatial arrangement of these components, and instructions for a robot to build this assembly. The output must 1) resemble the requested object and 2) be reliably assembled by a 6 DoF robot arm with a suction gripper. We then present Blox-Net, a GDfRA system that combines generative vision language models with well-established methods in computer vision, simulation, perturbation analysis, motion planning, and physical robot experimentation to solve a class of GDfRA problems with minimal human supervision. Blox-Net achieved a Top-1 accuracy of 63.5% in the ”recognizability” of its designed assemblies (eg, resembling giraffe as judged by a VLM). These designs, after automated perturbation redesign, were reliably assembled by a robot, achieving near-perfect success across 10 consecutive assembly iterations with human intervention only during reset prior to assembly. Surprisingly, this entire design process from textual word (”giraffe”) to reliable physical assembly is performed with zero human intervention.

arxiv情報

著者 Andrew Goldberg,Kavish Kondap,Tianshuang Qiu,Zehan Ma,Letian Fu,Justin Kerr,Huang Huang,Kaiyuan Chen,Kuan Fang,Ken Goldberg
発行日 2024-09-25 17:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク