要約
失敗を反映して修正する機能は、ロボット システムが現実のオブジェクトと安定して対話するために非常に重要です。マルチモーダル大規模言語モデル (MLLM) の一般化機能と推論機能を観察し、これまでのアプローチは、これらのモデルを利用してロボット システムをそれに応じて強化することを目的としていました。
ただし、これらの方法は通常、追加の MLLM を使用した高レベルの計画修正に焦点を当てており、低レベルの接触ポーズを修正するための失敗したサンプルの利用は限られています。
このギャップに対処するために、自律インタラクティブ修正 (AIC) MLLM を提案します。これは、以前の低レベルのインタラクション エクスペリエンスを利用して SE(3) ポーズ予測を修正します。
具体的には、AIC MLLM は、姿勢予測とフィードバックの両方のプロンプト理解能力を獲得するように最初に微調整されます。オブジェクトとのインタラクションを通じて 2 種類のプロンプト指示を慎重に設計します。1) 位置修正のために動かない部分を強調表示する視覚マスク、2) テキストによる説明
推論中に、失敗の原因を認識するためにフィードバック情報抽出モジュールが導入され、AIC MLLM が対応するプロンプトを使用して姿勢予測を適応的に修正できるようになります。
操作の安定性をさらに高めるために、AIC MLLM が現在のシーン構成によりよく適応できるようにするテスト時間適応戦略を考案しました。最後に、提案された方法を評価するために、シミュレーション環境と現実世界の両方の環境で広範な実験が行われます。
この結果は、AIC MLLM がインタラクション エクスペリエンスのプロンプトを活用することで障害サンプルを効率的に修正できることを示しています。実際のデモは https://sites.google.com/view/aic-mllm でご覧いただけます。
要約(オリジナル)
The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses. To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We carefully design two types of prompt instructions through interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2)textual descriptions to indicate potential directions for rotation correction.During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts. To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Real-world demonstration can be found at https://sites.google.com/view/aic-mllm
arxiv情報
著者 | Chuyan Xiong,Chengyu Shen,Xiaoqi Li,Kaichen Zhou,Jiaming Liu,Ruiping Wang,Hao Dong |
発行日 | 2024-09-12 10:48:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google