AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

要約

失敗を反映して修正する機能は、ロボット システムが現実のオブジェクトと安定して対話するために非常に重要です。マルチモーダル大規模言語モデル (MLLM) の一般化機能と推論機能を観察し、これまでのアプローチは、これらのモデルを利用してロボット システムをそれに応じて強化することを目的としていました。
ただし、これらの方法は通常、追加の MLLM を使用した高レベルの計画修正に焦点を当てており、関節オブジェクトの操作中に特に発生しやすい低レベルの接触姿勢を修正するために失敗したサンプルの利用が制限されています。このギャップに対処するために、我々は次のように提案します。
自律インタラクティブ修正 (AIC) MLLM。以前の低レベルのインタラクション エクスペリエンスを利用して、多関節オブジェクトの SE(3) ポーズ予測を修正します。
具体的には、AIC MLLM は、姿勢予測とフィードバックのプロンプト理解能力の両方を獲得するように最初に微調整されます。私たちは、オブジェクトとのインタラクションのための 2 種類のプロンプト指示を設計します。1) 位置補正のために動かない部分を強調表示する視覚マスク、2) 位置補正のために動かない部分をハイライトするためのテキスト説明。
回転補正の可能性のある方向を示します。
推論中に、失敗の原因を認識するためにフィードバック情報抽出モジュールが導入され、AIC MLLM が対応するプロンプトを使用して姿勢予測を適応的に修正できるようになります。操作の安定性をさらに高めるために、AIC MLLM がより適切に適応できるようにするテスト時間適応戦略を考案しました。
最後に、提案された方法を評価するために、シミュレーション環境と現実世界の両方の環境で広範な実験が行われます。
この結果は、AIC MLLM がインタラクション エクスペリエンスのプロンプトを活用することで、失敗サンプルを効率的に修正できることを示しています。私たちのプロジェクトの Web サイトは、https://sites.google.com/view/aic-mllm です。

要約(オリジナル)

The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses which is particularly prone to occur during articulated object manipulation.To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions for articulated object. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We design two types of prompt instructions for interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2) textual descriptions to indicate potential directions for rotation correction. During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts.To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Our project website is https://sites.google.com/view/aic-mllm.

arxiv情報

著者 Chuyan Xiong,Chengyu Shen,Xiaoqi Li,Kaichen Zhou,Jiaming Liu,Ruiping Wang,Hao Dong
発行日 2024-10-15 10:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク