要約
さまざまなロボット、タスク、環境にわたるゼロショットの一般化は、ロボット操作における重大な課題のままです。
ポリシー コード生成方法では、実行可能コードを使用して高レベルのタスクの説明と低レベルのアクション シーケンスを接続し、大規模な言語モデルとアトミック スキル ライブラリの一般化機能を活用します。
この研究では、ロボット基盤モデルであるロボット プログラマー (RoboPro) を提案します。これにより、視覚情報を認識し、自由形式の指示に従ってゼロショット方式でポリシー コードを使用してロボット操作を実行する機能が可能になります。
ロボット タスクのランタイム コード データ収集における効率の低さとコストの高さに対処するために、既製のビジョン言語モデルとコードドメインの大規模言語モデルを使用して、実際に存在する広範なビデオから実行可能コードを合成する Video2Code を考案しました。
広範な実験により、RoboPro はシミュレータと現実世界の環境の両方でロボット操作において最先端のゼロショット パフォーマンスを達成することが示されています。
具体的には、RLBench でのロボプロのゼロショット成功率は、最先端のモデル GPT-4o を 11.6% 上回っており、これは強力な教師付きトレーニング ベースラインにさえ匹敵します。
さらに、RoboPro は API 形式やスキルセットの変化に対して堅牢です。
要約(オリジナル)
Zero-shot generalization across various robots, tasks and environments remains a significant challenge in robotic manipulation. Policy code generation methods use executable code to connect high-level task descriptions and low-level action sequences, leveraging the generalization capabilities of large language models and atomic skill libraries. In this work, we propose Robotic Programmer (RoboPro), a robotic foundation model, enabling the capability of perceiving visual information and following free-form instructions to perform robotic manipulation with policy code in a zero-shot manner. To address low efficiency and high cost in collecting runtime code data for robotic tasks, we devise Video2Code to synthesize executable code from extensive videos in-the-wild with off-the-shelf vision-language model and code-domain large language model. Extensive experiments show that RoboPro achieves the state-of-the-art zero-shot performance on robotic manipulation in both simulators and real-world environments. Specifically, the zero-shot success rate of RoboPro on RLBench surpasses the state-of-the-art model GPT-4o by 11.6%, which is even comparable to a strong supervised training baseline. Furthermore, RoboPro is robust to variations on API formats and skill sets.
arxiv情報
著者 | Senwei Xie,Hongyu Wang,Zhanqi Xiao,Ruiping Wang,Xilin Chen |
発行日 | 2025-01-08 04:30:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google