要約
基礎モデルは、テキストから画像への生成、パノプティック セグメンテーション、自然言語処理など、さまざまなアプリケーションで大幅な進歩を遂げました。
この論文では、大規模言語モデルを利用してマルチモーダル命令をロボット操作タスクの連続アクションにマッピングするフレームワークである Instruct2Act について説明します。
具体的には、Instruct2Act は LLM モデルを使用して、ロボット タスクの包括的な認識、計画、アクション ループを構成する Python プログラムを生成します。
認識セクションでは、事前定義された API を使用して複数の基礎モデルにアクセスし、SAM (Segment Anything Model) が候補オブジェクトを正確に特定し、CLIP がそれらを分類します。
このようにして、フレームワークは基礎モデルの専門知識とロボット機能を活用して、複雑な高レベルの命令を正確なポリシー コードに変換します。
私たちのアプローチは調整可能かつ柔軟で、さまざまな指導方法や入力タイプに対応し、特定のタスクの要求に応えます。
私たちは、卓上操作ドメイン内のさまざまなシナリオでロボットタスクを評価することで、アプローチの実用性と効率性を検証しました。
さらに、私たちのゼロショット手法は、いくつかのタスクにおいて多くの最先端の学習ベースのポリシーを上回りました。
私たちが提案するアプローチのコードは https://github.com/OpenGVLab/Instruct2Act で入手でき、さまざまなモダリティ入力による高レベルのロボット命令タスクの堅牢なベンチマークとして機能します。
要約(オリジナル)
Foundation models have made significant strides in various applications, including text-to-image generation, panoptic segmentation, and natural language processing. This paper presents Instruct2Act, a framework that utilizes Large Language Models to map multi-modal instructions to sequential actions for robotic manipulation tasks. Specifically, Instruct2Act employs the LLM model to generate Python programs that constitute a comprehensive perception, planning, and action loop for robotic tasks. In the perception section, pre-defined APIs are used to access multiple foundation models where the Segment Anything Model (SAM) accurately locates candidate objects, and CLIP classifies them. In this way, the framework leverages the expertise of foundation models and robotic abilities to convert complex high-level instructions into precise policy codes. Our approach is adjustable and flexible in accommodating various instruction modalities and input types and catering to specific task demands. We validated the practicality and efficiency of our approach by assessing it on robotic tasks in different scenarios within tabletop manipulation domains. Furthermore, our zero-shot method outperformed many state-of-the-art learning-based policies in several tasks. The code for our proposed approach is available at https://github.com/OpenGVLab/Instruct2Act, serving as a robust benchmark for high-level robotic instruction tasks with assorted modality inputs.
arxiv情報
著者 | Siyuan Huang,Zhengkai Jiang,Hao Dong,Yu Qiao,Peng Gao,Hongsheng Li |
発行日 | 2023-05-24 04:17:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google