RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

要約

多様なタスクを備えたオープンエンドシナリオでのオペレーティングロボットは、ロボット工学における重要な研究とアプリケーションの方向性です。
自然言語処理と大規模なマルチモーダルモデルの最近の進歩により、ロボットの複雑な指示を理解する能力が向上しましたが、ロボットの操作は、オープン環境での手続き的スキルのジレンマと宣言的なスキルのジレンマに依然として直面しています。
既存の方法は、多くの場合、認知能力とエグゼクティブ機能を妥協します。
これらの課題に対処するために、この論文では、一般的なロボット操作のための階層的なインテリジェントアーキテクチャであるRobridgeを提案します。
これは、大規模な事前訓練を受けた視覚言語モデル(VLM)に基づく高レベルの認知プランナー(HCP)、シンボリックブリッジとして機能する不変操作可能な表現(IOR)、およびジェネラリストの具体化されたエージェント(GEA)で構成されています。
RobridgeはVLMの宣言的なスキルを維持し、強化学習の手続的なスキルを解き放ち、認知と実行のギャップを効果的に埋めます。
Robridgeは、既存のベースラインよりも大幅なパフォーマンスの改善を示し、新しいタスクで75%の成功率を達成し、タスクごとに5つの実際のデータサンプルのみを使用して、SIMからリアルの一般化で83%の平均成功率を達成します。
この作業は、認知的推論をロボットシステムで物理的実行と統合するための重要なステップを表しており、一般的なロボット操作のための新しいパラダイムを提供します。

要約(オリジナル)

Operating robots in open-ended scenarios with diverse tasks is a crucial research and application direction in robotics. While recent progress in natural language processing and large multimodal models has enhanced robots’ ability to understand complex instructions, robot manipulation still faces the procedural skill dilemma and the declarative skill dilemma in open environments. Existing methods often compromise cognitive and executive capabilities. To address these challenges, in this paper, we propose RoBridge, a hierarchical intelligent architecture for general robotic manipulation. It consists of a high-level cognitive planner (HCP) based on a large-scale pre-trained vision-language model (VLM), an invariant operable representation (IOR) serving as a symbolic bridge, and a generalist embodied agent (GEA). RoBridge maintains the declarative skill of VLM and unleashes the procedural skill of reinforcement learning, effectively bridging the gap between cognition and execution. RoBridge demonstrates significant performance improvements over existing baselines, achieving a 75% success rate on new tasks and an 83% average success rate in sim-to-real generalization using only five real-world data samples per task. This work represents a significant step towards integrating cognitive reasoning with physical execution in robotic systems, offering a new paradigm for general robotic manipulation.

arxiv情報

著者 Kaidong Zhang,Rongtao Xu,Pengzhen Ren,Junfan Lin,Hefeng Wu,Liang Lin,Xiaodan Liang
発行日 2025-05-07 08:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク