RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World

要約

既存のロボットポリシーは、主にタスク中心のアプローチを採用し、エンドツーエンドのタスクデータ収集を必要とします。
これにより、長老のマルチステージタスク内の特定のエラーの特定の新しいタスクと困難への一般化が限られています。
これに対処するために、オープンワールド環境でスケーラブルなロボットタスクの計画と実行のために設計されたスキル中心の階層的フレームワークであるRobomatrixを提案します。
Robomatrixは、多様な複雑なタスクから一般的なメタスキルを抽出し、スキル構成を通じて目に見えないタスクの完了を可能にします。
そのアーキテクチャは、タスク分解に大規模な言語モデル(LLM)を利用する高レベルのスケジューリングレイヤー、中間スキルレイヤーハウジングメタスキルモデル、ロボット制御用の低レベルのハードウェアレイヤーで構成されています。
私たちの仕事の重要な革新は、1つのモデル内で動きと操作の両方をシームレスに統合できる最初の統一されたビジョン言語アクション(VLA)モデルの導入です。
これは、ビジョンと言語のプロンプトを組み合わせて個別のアクションを生成することによって達成されます。
実験結果は、Robomatrixが、目に見えないオブジェクト、シーン、タスクに適用されると、タスク中心のベースラインよりも50%高い成功率を達成することを示しています。
Open-World Roboticsの調査を進めるために、https://github.com/waynemao/robomatrixでオープンソースコード、ハードウェアデザイン、モデルの重み、およびデータセットを展開します。

要約(オリジナル)

Existing robot policies predominantly adopt the task-centric approach, requiring end-to-end task data collection. This results in limited generalization to new tasks and difficulties in pinpointing errors within long-horizon, multi-stage tasks. To address this, we propose RoboMatrix, a skill-centric hierarchical framework designed for scalable robot task planning and execution in open-world environments. RoboMatrix extracts general meta-skills from diverse complex tasks, enabling the completion of unseen tasks through skill composition. Its architecture consists of a high-level scheduling layer that utilizes large language models (LLMs) for task decomposition, an intermediate skill layer housing meta-skill models, and a low-level hardware layer for robot control. A key innovation of our work is the introduction of the first unified vision-language-action (VLA) model capable of seamlessly integrating both movement and manipulation within one model. This is achieved by combining vision and language prompts to generate discrete actions. Experimental results demonstrate that RoboMatrix achieves a 50% higher success rate than task-centric baselines when applied to unseen objects, scenes, and tasks. To advance open-world robotics research, we will open-source code, hardware designs, model weights, and datasets at https://github.com/WayneMao/RoboMatrix.

arxiv情報

著者 Weixin Mao,Weiheng Zhong,Zhou Jiang,Dong Fang,Zhongyue Zhang,Zihan Lan,Haosheng Li,Fan Jia,Tiancai Wang,Haoqiang Fan,Osamu Yoshie
発行日 2025-03-25 09:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク