要約
生成 AI、特に大規模言語モデル (LLM) と大規模視覚言語モデル (LVLM) の最近の進歩は、認知計画をロボット システムに統合する新たな可能性をもたらします。
この研究では、効率的な探索戦略を生成するオブジェクトのゴール ナビゲーション問題を解決するための新しいフレームワークを紹介します。
私たちのアプローチでは、LLM と LVLM を活用してシーンの意味構造を理解することで、ロボットが不慣れな環境をナビゲートできるようになります。
システムに負荷をかけずに複雑な環境を表現するという課題に対処するために、意味論的な記述を強化した 3D モジュール式シーン表現を提案します。
この表現は、LLM ベースのメカニズムを使用して動的にプルーニングされ、無関係な情報がフィルタリングされ、タスク固有のデータに焦点が当てられます。
これらの要素を組み合わせることで、私たちのシステムは、ロボットの探索を目標物体に向けて導く高レベルのサブ目標を生成します。
シミュレートされた環境でアプローチを検証し、複雑な設定でスケーラビリティを維持しながらオブジェクト検索の効率を向上させる能力を実証します。
要約(オリジナル)
Recent advancements in Generative AI, particularly in Large Language Models (LLMs) and Large Vision-Language Models (LVLMs), offer new possibilities for integrating cognitive planning into robotic systems. In this work, we present a novel framework for solving the object goal navigation problem that generates efficient exploration strategies. Our approach enables a robot to navigate unfamiliar environments by leveraging LLMs and LVLMs to understand the semantic structure of the scene. To address the challenge of representing complex environments without overwhelming the system, we propose a 3D modular scene representation, enriched with semantic descriptions. This representation is dynamically pruned using an LLM-based mechanism, which filters irrelevant information and focuses on task-specific data. By combining these elements, our system generates high-level sub-goals that guide the exploration of the robot toward the target object. We validate our approach in simulated environments, demonstrating its ability to enhance object search efficiency while maintaining scalability in complex settings.
arxiv情報
著者 | Arjun P S,Andrew Melnik,Gora Chand Nandi |
発行日 | 2024-11-05 17:51:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google