RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation

要約

オープンワールドのロボット操作のための高レベルのタスク計画とコード生成の急速な進歩が、身体化型 AI で目撃されています。
しかし、以前の研究では、大規模な言語またはマルチモーダル モデルの一般的な常識推論とタスク計画機能に多くの労力が費やされており、生成されたコードの実際のロボットへの展開可能性の確保や、自律ロボット システムのその他の基本コンポーネントには比較的ほとんど労力がかかっていませんでした。
ロボットの認識、動作計画、および制御。
この「理想と現実」のギャップを埋めるために、この論文では \textbf{RobotScript} というプラットフォームを紹介します。1) コード生成を利用した展開可能なロボット操作パイプライン。
2) 自由形式の自然言語によるロボット操作タスクのコード生成ベンチマーク。
RobotScript プラットフォームは、ロボット オペレーティング システム (ROS) からの抽象化に基づいて、シミュレーションと実際のロボットの両方との統合インターフェイスを強調することでこのギャップに対処し、構文準拠と Gazebo によるシミュレーション検証を保証します。
私たちは、Franka および UR5 ロボット アーム、および複数のグリッパーを含む、複数のロボットの実施形態にわたるコード生成フレームワークの適応性を実証します。
さらに、当社のベンチマークでは、物理空間と制約に関する推論能力を評価し、複雑な物理的相互作用の処理における GPT-3.5、GPT-4、および Gemini の違いを強調しています。
最後に、システム全体の徹底的な評価を示し、コード生成、認識、動作計画、さらにはオブジェクトの幾何学的特性など、パイプライン内の各モジュールがシステム全体のパフォーマンスにどのような影響を与えるかを調査します。

要約(オリジナル)

Rapid progress in high-level task planning and code generation for open-world robot manipulation has been witnessed in Embodied AI. However, previous studies put much effort into general common sense reasoning and task planning capabilities of large-scale language or multi-modal models, relatively little effort on ensuring the deployability of generated code on real robots, and other fundamental components of autonomous robot systems including robot perception, motion planning, and control. To bridge this “ideal-to-real” gap, this paper presents \textbf{RobotScript}, a platform for 1) a deployable robot manipulation pipeline powered by code generation; and 2) a code generation benchmark for robot manipulation tasks in free-form natural language. The RobotScript platform addresses this gap by emphasizing the unified interface with both simulation and real robots, based on abstraction from the Robot Operating System (ROS), ensuring syntax compliance and simulation validation with Gazebo. We demonstrate the adaptability of our code generation framework across multiple robot embodiments, including the Franka and UR5 robot arms, and multiple grippers. Additionally, our benchmark assesses reasoning abilities for physical space and constraints, highlighting the differences between GPT-3.5, GPT-4, and Gemini in handling complex physical interactions. Finally, we present a thorough evaluation on the whole system, exploring how each module in the pipeline: code generation, perception, motion planning, and even object geometric properties, impact the overall performance of the system.

arxiv情報

著者 Junting Chen,Yao Mu,Qiaojun Yu,Tianming Wei,Silang Wu,Zhecheng Yuan,Zhixuan Liang,Chao Yang,Kaipeng Zhang,Wenqi Shao,Yu Qiao,Huazhe Xu,Mingyu Ding,Ping Luo
発行日 2024-02-22 15:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO, I.2.10 パーマリンク