要約
ロボット システムが現実の物体と安定して対話するには、失敗を反映して修正する能力が不可欠です。
マルチモーダル大規模言語モデル (MLLM) の一般化および推論機能を観察し、これまでのアプローチは、これらのモデルを利用してロボット システムをそれに応じて強化することを目的としていました。
ただし、これらの方法は通常、追加の MLLM を使用した高レベルの計画修正に焦点を当てており、関節オブジェクトの操作中に特に発生しやすい低レベルの接触姿勢を修正するために失敗したサンプルの利用を制限します。
このギャップに対処するために、自律インタラクティブ修正 (AIC) MLLM を提案します。これは、以前の低レベルのインタラクション経験を利用して、多関節オブジェクトの SE(3) ポーズ予測を修正します。
具体的には、AIC MLLM は、姿勢予測とフィードバックによる理解能力の両方を獲得するために最初に微調整されます。
オブジェクトとのインタラクションのための 2 種類のプロンプト指示を設計します。1) 位置修正のために動かせない部分を強調表示する視覚マスク、2) 回転修正の可能性のある方向を示すテキストの説明です。
推論中に、失敗の原因を認識するためにフィードバック情報抽出モジュールが導入され、AIC MLLM が対応するプロンプトを使用して姿勢予測を適応的に修正できるようになります。
操作の安定性をさらに高めるために、AIC MLLM が現在のシーン構成によりよく適応できるようにするテスト時間適応戦略を考案しました。
最後に、提案された方法を評価するために、シミュレーション環境と現実世界の両方の環境で広範な実験が行われます。
この結果は、AIC MLLM がインタラクション エクスペリエンスのプロンプトを活用することで、失敗サンプルを効率的に修正できることを示しています。
私たちのプロジェクトの Web サイトは https://sites.google.com/view/aic-mllm です。
要約(オリジナル)
The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects. Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly. However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses which is particularly prone to occur during articulated object manipulation. To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions for articulated object. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities. We design two types of prompt instructions for interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2) textual descriptions to indicate potential directions for rotation correction. During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts. To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration. Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts. Our project website is https://sites.google.com/view/aic-mllm.
arxiv情報
著者 | Chuyan Xiong,Chengyu Shen,Xiaoqi Li,Kaichen Zhou,Jiaming Liu,Ruiping Wang,Hao Dong |
発行日 | 2024-10-16 06:29:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google