Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

要約

ロボット操作ポリシーは、新しいタスクやオブジェクトのインスタンスに直面した場合、アクションのパフォーマンスが不十分であることを示しています。
したがって、実用的なロボット システムには、障害動作を自動的に検出して自己修正する機能が不可欠です。
最近、マルチモーダル大規模言語モデル (MLLM) は、視覚的な指示に従うことが期待されており、さまざまなタスクで強力な推論能力を実証しています。
一般的な MLLM をエンドツーエンドのロボット エージェントとして解放するために、自己修正 (SC)-MLLM を導入し、モデルにエンドエフェクターのポーズを予測するだけでなく、失敗アクションを自律的に認識して修正する機能を備えさせます。
具体的には、まずパラメータ効率の高い微調整を実行して、言語モデリングの問題として再構成されたポーズ予測機能を MLLM に提供します。
実行エラーに直面した場合、私たちのモデルは低レベルのアクション エラーの原因 (つまり、位置や回転のエラー) を特定することを学習し、専門家からの迅速なフィードバックを適応的に求めます。
フィードバックに基づいて、SC-MLLM は現在の障害シーンを再考し、修正されたアクションを生成します。
さらに、正常に修正されたサンプルに対する継続的なポリシー学習方法を設計し、現在のシーン構成に対するモデルの適応性を強化し、専門家の介入の頻度を減らします。
SC-MLLM を評価するために、シミュレーションと現実世界の設定の両方で広範な実験を実施します。
SC-MLLM エージェントは、以前の最先端のロボット MLLM (ManipLLM) と比較して操作精度が大幅に向上し、既知のオブジェクト カテゴリでは 57\% から 79\% に、目に見えない新規カテゴリでは 47\% から 69\% に増加しました。

要約(オリジナル)

Robot manipulation policies have shown unsatisfactory action performance when confronted with novel task or object instances. Hence, the capability to automatically detect and self-correct failure action is essential for a practical robotic system. Recently, Multimodal Large Language Models (MLLMs) have shown promise in visual instruction following and demonstrated strong reasoning abilities in various tasks. To unleash general MLLMs as an end-to-end robotic agent, we introduce a Self-Corrected (SC)-MLLM, equipping our model not only to predict end-effector poses but also to autonomously recognize and correct failure actions. Specifically, we first conduct parameter-efficient fine-tuning to empower MLLM with pose prediction ability, which is reframed as a language modeling problem. When facing execution failures, our model learns to identify low-level action error causes (i.e., position and rotation errors) and adaptively seeks prompt feedback from experts. Based on the feedback, SC-MLLM rethinks the current failure scene and generates the corrected actions. Furthermore, we design a continuous policy learning method for successfully corrected samples, enhancing the model’s adaptability to the current scene configuration and reducing the frequency of expert intervention. To evaluate our SC-MLLM, we conduct extensive experiments in both simulation and real-world settings. SC-MLLM agent significantly improve manipulation accuracy compared to previous state-of-the-art robotic MLLM (ManipLLM), increasing from 57\% to 79\% on seen object categories and from 47\% to 69\% on unseen novel categories.

arxiv情報

著者 Jiaming Liu,Chenxuan Li,Guanqun Wang,Lily Lee,Kaichen Zhou,Sixiang Chen,Chuyan Xiong,Jiaxin Ge,Renrui Zhang,Shanghang Zhang
発行日 2024-05-27 17:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク