要約
ビジョン言語モデル(VLM)は、シーンの理解と知覚タスクで顕著な成功を収めており、ロボットが動的環境でアクションを適応的に計画および実行できるようにします。
ただし、ほとんどのマルチモーダルな大手言語モデルには、堅牢な3Dシーンのローカリゼーション機能がなく、きめ細かいロボット操作における有効性が制限されています。
さらに、認識の精度の低い、非効率性、貧弱な移動性、信頼性などの課題は、精度のタスクでの使用を妨げます。
これらの制限に対処するために、2D画像をポイントクラウドにマッピングして2Dプロンプト合成モジュールを統合し、VLM出力を監督するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案します。
2Dプロンプト合成モジュールは、2D画像とテキストでトレーニングされたVLMSを有効にし、手動介入なしに正確な3D空間情報を自律的に抽出し、3Dシーンの理解を大幅に向上させます。
一方、SLMはVLM出力を監督し、幻覚を軽減し、信頼できる実行可能なロボット制御コード生成を確保します。
私たちのフレームワークは、新しい環境での再訓練の必要性を排除し、それによりコスト効率と運用の堅牢性を改善します。
提案されたフレームワークが96.0 \%タスクの成功率(TSR)を達成し、他の方法を上回る実験結果。
アブレーション研究は、2Dプロンプト合成モジュールと出力監督モジュールの両方の重要な役割を実証しました(削除すると、67 \%TSRドロップが発生しました)。
これらの調査結果は、3D認識、タスク計画、およびロボットタスクの実行を改善する上でのフレームワークの有効性を検証します。
要約(オリジナル)
Vision-language models (VLMs) have achieved remarkable success in scene understanding and perception tasks, enabling robots to plan and execute actions adaptively in dynamic environments. However, most multimodal large language models lack robust 3D scene localization capabilities, limiting their effectiveness in fine-grained robotic operations. Additionally, challenges such as low recognition accuracy, inefficiency, poor transferability, and reliability hinder their use in precision tasks. To address these limitations, we propose a novel framework that integrates a 2D prompt synthesis module by mapping 2D images to point clouds, and incorporates a small language model (SLM) for supervising VLM outputs. The 2D prompt synthesis module enables VLMs, trained on 2D images and text, to autonomously extract precise 3D spatial information without manual intervention, significantly enhancing 3D scene understanding. Meanwhile, the SLM supervises VLM outputs, mitigating hallucinations and ensuring reliable, executable robotic control code generation. Our framework eliminates the need for retraining in new environments, thereby improving cost efficiency and operational robustness. Experimental results that the proposed framework achieved a 96.0\% Task Success Rate (TSR), outperforming other methods. Ablation studies demonstrated the critical role of both the 2D prompt synthesis module and the output supervision module (which, when removed, caused a 67\% TSR drop). These findings validate the framework’s effectiveness in improving 3D recognition, task planning, and robotic task execution.
arxiv情報
著者 | Guoqin Tang,Qingxuan Jia,Zeyuan Huang,Gang Chen,Ning Ji,Zhipeng Yao |
発行日 | 2025-02-13 02:40:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google