要約
大規模なマルチモーダルモデル(LMM)の視覚的推論能力の最近の進歩と3Dフィーチャフィールドのセマンティック濃縮により、ロボット機能の視野が拡大しました。
これらの開発は、LMMSからの高レベルの推論と3D機能フィールドを利用して低レベルの制御ポリシーとの間のギャップを埋めるための重要な可能性を秘めています。
この作業では、LMM-3DPを紹介します。LMM-3DPは、LMMプランナーと3Dスキルポリシーを統合できるフレームワークです。
私たちのアプローチは、高レベルの計画、低レベルの制御、効果的な統合という3つの重要な視点で構成されています。
高レベルの計画のために、LMM-3DPは、環境障害の動的なシーンの理解、セルフフィードバックの批評家エージェント、歴史政策の記憶、失敗後の反復をサポートします。
低レベルのコントロールのために、LMM-3DPは、正確な操作のためにセマンティック認識3D機能フィールドを使用します。
ロボットアクションのための高レベルおよび低レベルの制御を調整する際に、高レベルのポリシーを表す言語埋め込みは、シームレスな統合のために3Dトランスの3D機能フィールドと共同で参加します。
実際のキッチン環境における複数のスキルと長老のタスクにわたるアプローチを広範囲に評価します。
私たちの結果は、LLMベースのベースラインと比較して、低レベルの制御の大幅な1.45倍の成功率の上昇と、高レベルの計画精度の約1.5倍の改善を示しています。
デモビデオとLMM-3DPの概要は、https://lmm-3dp-release.github.ioで入手できます。
要約(オリジナル)
The recent advancements in visual reasoning capabilities of large multimodal models (LMMs) and the semantic enrichment of 3D feature fields have expanded the horizons of robotic capabilities. These developments hold significant potential for bridging the gap between high-level reasoning from LMMs and low-level control policies utilizing 3D feature fields. In this work, we introduce LMM-3DP, a framework that can integrate LMM planners and 3D skill Policies. Our approach consists of three key perspectives: high-level planning, low-level control, and effective integration. For high-level planning, LMM-3DP supports dynamic scene understanding for environment disturbances, a critic agent with self-feedback, history policy memorization, and reattempts after failures. For low-level control, LMM-3DP utilizes a semantic-aware 3D feature field for accurate manipulation. In aligning high-level and low-level control for robot actions, language embeddings representing the high-level policy are jointly attended with the 3D feature field in the 3D transformer for seamless integration. We extensively evaluate our approach across multiple skills and long-horizon tasks in a real-world kitchen environment. Our results show a significant 1.45x success rate increase in low-level control and an approximate 1.5x improvement in high-level planning accuracy compared to LLM-based baselines. Demo videos and an overview of LMM-3DP are available at https://lmm-3dp-release.github.io.
arxiv情報
著者 | Yuelei Li,Ge Yan,Annabella Macaluso,Mazeyu Ji,Xueyan Zou,Xiaolong Wang |
発行日 | 2025-01-30 20:19:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google