Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making

要約

私たちは、具体化された意思決定のために大規模言語モデル (LLM) を評価することを目指しています。
多くの研究では、具体化された環境での意思決定に LLM を活用してきましたが、LLM は通常、さまざまなドメイン、さまざまな目的に適用され、さまざまな入力と出力に基づいて構築されるため、そのパフォーマンスについて体系的な理解がまだ不足しています。
さらに、既存の評価は最終的な成功率のみに依存する傾向があり、LLM にどのような能力が欠けているのか、どこに問題があるのか​​を特定することが困難になり、その結果、身体化されたエージェントが LLM を効果的かつ選択的に活用することが妨げられています。
これらの制限に対処するために、さまざまなタイプのタスクと LLM ベースのモジュールの入出力仕様の形式化をサポートする一般化されたインターフェイス (エンボディド エージェント インターフェイス) を提案します。
具体的には、1) 状態目標と時間的に拡張された目標の両方を含む、具体化された意思決定タスクの広範なセット、2) 意思決定に一般的に使用される 4 つの LLM ベースのモジュール (目標解釈、サブ目標分解、アクション シーケンス、および
移行モデリング、および 3) 幻覚エラー、アフォーダンス エラー、さまざまなタイプの計画エラーなど、評価をさまざまなタイプのエラーに分類するきめ細かい指標のコレクション。
ベンチマークは、さまざまなサブタスクに対する LLM のパフォーマンスの包括的な評価を提供し、LLM を利用した組み込み型 AI システムの長所と短所を正確に特定し、組み込み型の意思決定において LLM を効果的かつ選択的に使用するための洞察を提供します。

要約(オリジナル)

We aim to evaluate Large Language Models (LLMs) for embodied decision making. While a significant body of work has been leveraging LLMs for decision making in embodied environments, we still lack a systematic understanding of their performance because they are usually applied in different domains, for different purposes, and built based on different inputs and outputs. Furthermore, existing evaluations tend to rely solely on a final success rate, making it difficult to pinpoint what ability is missing in LLMs and where the problem lies, which in turn blocks embodied agents from leveraging LLMs effectively and selectively. To address these limitations, we propose a generalized interface (Embodied Agent Interface) that supports the formalization of various types of tasks and input-output specifications of LLM-based modules. Specifically, it allows us to unify 1) a broad set of embodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpretation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics which break down evaluation into various types of errors, such as hallucination errors, affordance errors, various types of planning errors, etc. Overall, our benchmark offers a comprehensive assessment of LLMs’ performance for different subtasks, pinpointing the strengths and weaknesses in LLM-powered embodied AI systems, and providing insights for effective and selective use of LLMs in embodied decision making.

arxiv情報

著者 Manling Li,Shiyu Zhao,Qineng Wang,Kangrui Wang,Yu Zhou,Sanjana Srivastava,Cem Gokmen,Tony Lee,Li Erran Li,Ruohan Zhang,Weiyu Liu,Percy Liang,Li Fei-Fei,Jiayuan Mao,Jiajun Wu
発行日 2025-01-19 19:29:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO | コメントする

Online Hybrid-Belief POMDP with Coupled Semantic-Geometric Models and Semantic Safety Awareness

要約

複雑で未知の環境で動作するロボットは、タスクを安全に実行するために環境の幾何学的意味論的表現を必要とすることがよくあります。
環境を推測する際、将来のアクションを計画する際には、考えられる多くのシナリオを考慮する必要があります。
オブジェクトのクラス タイプは離散的であり、ロボットの自己ポーズとオブジェクトのポーズは連続的であるため、環境はモデルと受信データに従って更新される離散-連続のハイブリッド信念によって表すことができます。
環境を表す事前確率と観測モデルは、深層学習アルゴリズムを使用してデータから学習できます。
このようなモデルは、多くの場合、環境の意味論的特性と幾何学的な特性を結び付けます。
その結果、意味変数が相互接続され、意味状態空間の次元が指数関数的に増加します。
この論文では、ハイブリッド意味論的信念と幾何学的信念を備えた部分的に観察可能なマルコフ決定プロセス (POMDP) を使用して、不確実性の下での計画を検討します。
モデルと事前分布では、意味変数と幾何変数の間の結合が考慮されます。
POMDP 内で、意味を意識した安全性の概念を導入します。
価値関数の推定に必要な、理論上のハイブリッド信念の代表的なサンプルを取得することは、非常に困難です。
主な貢献として、私たちはハイブリッド信念の新しい形式を開発し、それを活用して代表的なサンプルをサンプリングします。
特定の条件下では、すべての可能な意味論的マッピングに対する明示的な期待を使用して、価値関数と安全性の確率を効率的に計算できることを示します。
私たちのシミュレーションは、目的関数と安全確率の推定が、理論的なハイブリッド信念からのサンプルを使用して意味論的状態空間全体で徹底的に実行される推定器と比較して、同様のレベルの精度を達成することを示しています。
それにもかかわらず、推定量の複雑さは指数関数的ではなく多項式です。

要約(オリジナル)

Robots operating in complex and unknown environments frequently require geometric-semantic representations of the environment to safely perform their tasks. While inferring the environment, they must account for many possible scenarios when planning future actions. Since objects’ class types are discrete and the robot’s self-pose and the objects’ poses are continuous, the environment can be represented by a hybrid discrete-continuous belief which is updated according to models and incoming data. Prior probabilities and observation models representing the environment can be learned from data using deep learning algorithms. Such models often couple environmental semantic and geometric properties. As a result, semantic variables are interconnected, causing semantic state space dimensionality to increase exponentially. In this paper, we consider planning under uncertainty using partially observable Markov decision processes (POMDPs) with hybrid semantic-geometric beliefs. The models and priors consider the coupling between semantic and geometric variables. Within POMDP, we introduce the concept of semantically aware safety. Obtaining representative samples of the theoretical hybrid belief, required for estimating the value function, is very challenging. As a key contribution, we develop a novel form of the hybrid belief and leverage it to sample representative samples. We show that under certain conditions, the value function and probability of safety can be calculated efficiently with an explicit expectation over all possible semantic mappings. Our simulations show that our estimates of the objective function and probability of safety achieve similar levels of accuracy compared to estimators that run exhaustively on the entire semantic state-space using samples from the theoretical hybrid belief. Nevertheless, the complexity of our estimators is polynomial rather than exponential.

arxiv情報

著者 Tuvy Lemberg,Vadim Indelman
発行日 2025-01-20 00:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, none | コメントする

N-dimensional Convex Obstacle Avoidance using Hybrid Feedback Control (Extended version)

要約

この論文は、任意の形状とサイズの凸状障害物を含む先験的に未知の n 次元環境におけるロボットの自律ナビゲーション問題を扱います。
我々は、事前定義された目標位置へのロボットの安全かつグローバルな漸近収束を保証するハイブリッドフィードバック制御スキームを提案します。
提案された制御戦略は、障害物への近接性とロボットとロボットの間の明確な直線経路の利用可能性に基づいて、ロボットが目標へ移動モードまたは障害物回避モードのいずれかで動作できるようにする切り替えメカニズムに依存しています。
ターゲット。
障害物回避モードでは、ロボットは回避対象の障害物とターゲットが交差する 2 次元平面内で移動するように制約され、その経路を戻ることができなくなります。
提案されたハイブリッド フィードバック コントローラーの有効性は、2 次元および 3 次元環境でのシミュレーションを通じて実証されます。

要約(オリジナル)

This paper addresses the autonomous robot navigation problem in a priori unknown n-dimensional environments containing convex obstacles of arbitrary shapes and sizes. We propose a hybrid feedback control scheme that guarantees safe and global asymptotic convergence of the robot to a predefined target location. The proposed control strategy relies on a switching mechanism allowing the robot to operate either in the move-to-target mode or the obstacle-avoidance mode, based on its proximity to the obstacles and the availability of a clear straight path between the robot and the target. In the obstacle-avoidance mode, the robot is constrained to move within a two-dimensional plane that intersects the obstacle being avoided and the target, preventing it from retracing its path. The effectiveness of the proposed hybrid feedback controller is demonstrated through simulations in two-dimensional and three-dimensional environments.

arxiv情報

著者 Mayur Sawant,Ilia Polushin,Abdelhamid Tayebi
発行日 2025-01-20 02:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Real-time Motion Planning for autonomous vehicles in dynamic environments

要約

最近の自動運転車技術の進歩により、さまざまな環境を自律的に走行できるようになりました。
ただし、自動運転車の運用における重要な課題の 1 つは、特に移動障害物がある動的環境における軌道計画です。
この研究は、移動する障害物のある動的環境で動作する自動運転車に合わせた堅牢なアルゴリズムを提案することで、この課題に取り組むことを目的としています。
このアルゴリズムには 2 つの主要な革新が導入されています。
まず、軌道に沿ったウェイポイントの数を調整し、曲線領域での精度を高めるためにウェイポイントの分布を最適化し、直線セクションでの計算の複雑さを軽減することでパス密度を定義します。
第二に、階層的な動作計画アルゴリズムを統合し、強化された $A^*$ グラフベースの手法を使用したグローバル プランニングと、さまざまな動作モデルを考慮した移動障害物検出と時間エラスティック バンド アルゴリズムを使用したローカル プランニングを組み合わせます。
提案されたアルゴリズムは、さまざまな車両タイプや移動ロボットに適応できるため、現実世界のアプリケーションに多用途に使用できます。
シミュレーション結果は、さまざまな条件下での有効性を実証し、動的環境における自動運転車のより安全で効率的なナビゲーションを約束します。
これらの変更により、軌道計画機能が大幅に向上し、自動運転車技術の重要な側面に対応します。

要約(オリジナル)

Recent advancements in self-driving car technologies have enabled them to navigate autonomously through various environments. However, one of the critical challenges in autonomous vehicle operation is trajectory planning, especially in dynamic environments with moving obstacles. This research aims to tackle this challenge by proposing a robust algorithm tailored for autonomous cars operating in dynamic environments with moving obstacles. The algorithm introduces two main innovations. Firstly, it defines path density by adjusting the number of waypoints along the trajectory, optimizing their distribution for accuracy in curved areas and reducing computational complexity in straight sections. Secondly, it integrates hierarchical motion planning algorithms, combining global planning with an enhanced $A^*$ graph-based method and local planning using the time elastic band algorithm with moving obstacle detection considering different motion models. The proposed algorithm is adaptable for different vehicle types and mobile robots, making it versatile for real-world applications. Simulation results demonstrate its effectiveness across various conditions, promising safer and more efficient navigation for autonomous vehicles in dynamic environments. These modifications significantly improve trajectory planning capabilities, addressing a crucial aspect of autonomous vehicle technology.

arxiv情報

著者 Mohammad Dehghani Tezerjani,Dominic Carrillo,Deyuan Qu,Sudip Dhakal,Amir Mirzaeinia,Qing Yang
発行日 2025-01-20 03:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

A Survey of World Models for Autonomous Driving

要約

自動運転における最近の進歩により、車両が周囲を認識し、周囲と相互作用する方法に革命が起きました。
特にワールド モデルは、マルチセンサー データ、セマンティック キュー、および時間ダイナミクスを統合した運転環境の忠実度の高い表現を提供する、要となるテクノロジーとして登場しました。
このようなモデルは認識、予測、計画を統合するため、自律システムは複雑で予測不可能な状況下でも情報に基づいた迅速な意思決定を行うことができます。
研究傾向は 4D 占有予測や生成データ合成など、さまざまな分野に広がっており、これらはすべてシーンの理解と軌道予測を強化します。
特に、最近の研究では、大規模な事前トレーニングと高度な自己教師あり学習を利用して、まれなイベントのシミュレーションとリアルタイムのインタラクションに対するモデルの能力をスケールアップしています。
ドメイン適応やロングテール異常検出からマルチモーダル融合に至るまでの主要な課題に対処する上で、これらの世界モデルは、より堅牢で信頼性が高く、適応性のある自動運転ソリューションへの道を切り開きます。
この調査では、最新技術を体系的にレビューし、将来予測、行動計画、およびその 2 つの相互作用に焦点を当てて技術を分類しています。
また、全体的な統合、計算効率の向上、高度なシミュレーションを重視して、将来の研究の潜在的な方向性を特定します。
私たちの包括的な分析は、より安全でより公平なモビリティを目指して次世代の自動運転システムを推進する上で、世界モデルが変革をもたらす役割を担っていることを強調しています。

要約(オリジナル)

Recent breakthroughs in autonomous driving have revolutionized the way vehicles perceive and interact with their surroundings. In particular, world models have emerged as a linchpin technology, offering high-fidelity representations of the driving environment that integrate multi-sensor data, semantic cues, and temporal dynamics. Such models unify perception, prediction, and planning, thereby enabling autonomous systems to make rapid, informed decisions under complex and often unpredictable conditions. Research trends span diverse areas, including 4D occupancy prediction and generative data synthesis, all of which bolster scene understanding and trajectory forecasting. Notably, recent works exploit large-scale pretraining and advanced self-supervised learning to scale up models’ capacity for rare-event simulation and real-time interaction. In addressing key challenges — ranging from domain adaptation and long-tail anomaly detection to multimodal fusion — these world models pave the way for more robust, reliable, and adaptable autonomous driving solutions. This survey systematically reviews the state of the art, categorizing techniques by their focus on future prediction, behavior planning, and the interaction between the two. We also identify potential directions for future research, emphasizing holistic integration, improved computational efficiency, and advanced simulation. Our comprehensive analysis underscores the transformative role of world models in driving next-generation autonomous systems toward safer and more equitable mobility.

arxiv情報

著者 Tuo Feng,Wenguan Wang,Yi Yang
発行日 2025-01-20 04:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

An Incremental Sampling and Segmentation-Based Approach for Motion Planning Infeasibility

要約

運動学的運動計画における計画の実行不可能性を検出するための、シンプルで実装が簡単なアルゴリズムを紹介します。
私たちの方法には、ロボットの構成空間を離散空間に近似することが含まれており、各自由度は有限の値セットを持ちます。
障害物領域は、自由構成空間を異なる接続領域に分割します。
開始構成と終了構成の間にパスが存在するには、それらが自由空間の同じ接続領域に存在する必要があります。
したがって、計画の実行不可能性を確認するには、スタートとゴールを分離する障害物領域から適切な点をサンプリングするだけで済みます。
したがって、離散化空間からサンプリングし、障害物領域を表すビットマップ セルを更新することにより、構成空間を段階的に構築します。
次に、この部分的に構築された構成空間を分割して、その内部のさまざまな接続コンポーネントを特定し、開始セルと目標セルの接続性を評価します。
この方法論を、最大 5 自由度 (DOF) を持つ構成空間を使用した 5 つの異なるシナリオで説明します。

要約(オリジナル)

We present a simple and easy-to-implement algorithm to detect plan infeasibility in kinematic motion planning. Our method involves approximating the robot’s configuration space to a discrete space, where each degree of freedom has a finite set of values. The obstacle region separates the free configuration space into different connected regions. For a path to exist between the start and goal configurations, they must lie in the same connected region of the free space. Thus, to ascertain plan infeasibility, we merely need to sample adequate points from the obstacle region that isolate start and goal. Accordingly, we progressively construct the configuration space by sampling from the discretized space and updating the bitmap cells representing obstacle regions. Subsequently, we partition this partially built configuration space to identify different connected components within it and assess the connectivity of the start and goal cells. We illustrate this methodology on five different scenarios with configuration spaces having up to 5 degree-of-freedom (DOF).

arxiv情報

著者 Antony Thomas,Fulvio Mastrogiovanni,Marco Baglietto
発行日 2025-01-20 12:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

The Dilemma of Decision-Making in the Real World: When Robots Struggle to Make Choices Due to Situational Constraints

要約

騒音の多い現実世界の環境における支援ロボット機能の限界を実証するために、ユーザーと環境の不確実性による課題を調査し、それらをユーザー調査に組み込む意思決定シナリオ分析アプローチを提案します。
このシナリオでは、特に視覚、身体、認知、聴覚の障害、臨床上のニーズ、環境要因 (騒音、光レベル、散らかり)、日常生活活動などを持つ個人に関連して、より人間とロボットのコラボレーションを通じてパーソナライゼーションをどのように達成できるかを強調しています。
私たちの目標は、この貢献が反省を促し、改善されたロボット (実施形態、センサー、作動、認知) とその動作の設計を支援することであり、意思決定の複雑さに対処し、人間とロボットのコラボレーションを強化する画期的な戦略を導入することを目指しています。
-シナリオ分析アプローチによる不確実性の下での作成。
ユーザー中心の設計原則を強調し、現実世界の課題に対する実用的なソリューションを提供することで、この取り組みは、重要な意思決定上の課題を特定し、潜在的なソリューションを提案することを目的としています。

要約(オリジナル)

In order to demonstrate the limitations of assistive robotic capabilities in noisy real-world environments, we propose a Decision-Making Scenario analysis approach that examines the challenges due to user and environmental uncertainty, and incorporates these into user studies. The scenarios highlight how personalization can be achieved through more human-robot collaboration, particularly in relation to individuals with visual, physical, cognitive, auditory impairments, clinical needs, environmental factors (noise, light levels, clutter), and daily living activities. Our goal is for this contribution to prompt reflection and aid in the design of improved robots (embodiment, sensors, actuation, cognition) and their behavior, and we aim to introduces a groundbreaking strategy to enhance human-robot collaboration, addressing the complexities of decision-making under uncertainty through a Scenario analysis approach. By emphasizing user-centered design principles and offering actionable solutions to real-world challenges, this work aims to identify key decision-making challenges and propose potential solutions.

arxiv情報

著者 Khairidine Benali,Praminda Caleb-Solly
発行日 2025-01-20 13:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Clinically Ready Magnetic Microrobots for Targeted Therapies

要約

薬物の全身投与は、多くの場合、オフターゲット効果を引き起こし、高度な治療の有効性を制限します。
標的薬物送達アプローチは、全身的な薬物曝露を最小限に抑えながら、患部の局所薬物濃度を増加させます。
我々は、生理学的条件下で正確なナビゲーションが可能な磁気誘導マイクロロボットドラッグデリバリーシステムを紹介します。
このプラットフォームには、臨床電磁ナビゲーション システム、カスタム設計のリリース カテーテル、および正確な治療薬送達のための溶解可能なカプセルが統合されています。
in vitro 試験では人間の血管構造モデルでの正確なナビゲーションが示され、in vivo 実験では蛍光透視下での追跡と大型動物モデルでのナビゲーションの成功が確認されました。
マイクロロボットは、磁性材料の濃度、造影剤の充填、および治療薬の能力のバランスをとり、コンポーネントの統合の複雑さにもかかわらず治療薬の効果的なホスティングを可能にし、正確な標的薬物送達のための有望なソリューションを提供します。

要約(オリジナル)

Systemic drug administration often causes off-target effects limiting the efficacy of advanced therapies. Targeted drug delivery approaches increase local drug concentrations at the diseased site while minimizing systemic drug exposure. We present a magnetically guided microrobotic drug delivery system capable of precise navigation under physiological conditions. This platform integrates a clinical electromagnetic navigation system, a custom-designed release catheter, and a dissolvable capsule for accurate therapeutic delivery. In vitro tests showed precise navigation in human vasculature models, and in vivo experiments confirmed tracking under fluoroscopy and successful navigation in large animal models. The microrobot balances magnetic material concentration, contrast agent loading, and therapeutic drug capacity, enabling effective hosting of therapeutics despite the integration complexity of its components, offering a promising solution for precise targeted drug delivery.

arxiv情報

著者 Fabian C. Landers,Lukas Hertle,Vitaly Pustovalov,Derick Sivakumaran,Oliver Brinkmann,Kirstin Meiners,Pascal Theiler,Valentin Gantenbein,Andrea Veciana,Michael Mattmann,Silas Riss,Simone Gervasoni,Christophe Chautems,Hao Ye,Semih Sevim,Andreas D. Flouris,Josep Puigmartí-Luis,Tiago Sotto Mayor,Pedro Alves,Tessa Lühmann,Xiangzhong Chen,Nicole Ochsenbein,Ueli Moehrlen,Philipp Gruber,Miriam Weisskopf,Quentin Boehler,Salvador Pané,Bradley J. Nelson
発行日 2025-01-20 15:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.RO, cs.SY, eess.SY, physics.app-ph, physics.bio-ph, physics.med-ph | コメントする

Event-based vision for egomotion estimation using precise event timing

要約

エゴモーション推定は、正確かつリアルタイムのモーション追跡が必要な自律ナビゲーションやロボット工学などのアプリケーションにとって非常に重要です。
しかし、慣性センサーに依存する従来の方法は外部条件に非常に敏感であり、長距離では大きな不正確さにつながるドリフトの影響を受けます。
ビジョンベースの方法、特にイベントベースのビジョンセンサーを利用する方法は、シーン内で変化が認識された場合にのみデータをキャプチャすることで効率的な代替手段を提供します。
このアプローチでは、高速かつ低遅延のフィードバックを実現しながら、消費電力を最小限に抑えます。
この研究では、イベント ベースのドメイン内でイベント ストリームを直接処理する、エゴモーション推定のための完全なイベント ベースのパイプラインを提案します。
この方法により、フレームベースの仲介の必要性がなくなり、低遅延でエネルギー効率の高い動き推定が可能になります。
シナプス ゲート機構を使用して浅いスパイク ニューラル ネットワークを構築し、正確なイベント タイミングをスパイクのバーストに変換します。
これらのスパイクは局所的なオプティカル フロー速度をエンコードし、ネットワークはエゴモーションのイベントベースの読み取りを提供します。
専用チップ上でネットワークのパフォーマンスを評価し、低遅延、低電力の動き推定の強力な可能性を実証します。
さらに、大規模ネットワークのシミュレーションでは、このシステムがイベントベースのカメラを使用したエゴモーション推定タスクで最先端の精度を達成し、リアルタイムの電力に制約のあるロボット工学アプリケーションにとって有望なソリューションとなることが示されています。

要約(オリジナル)

Egomotion estimation is crucial for applications such as autonomous navigation and robotics, where accurate and real-time motion tracking is required. However, traditional methods relying on inertial sensors are highly sensitive to external conditions, and suffer from drifts leading to large inaccuracies over long distances. Vision-based methods, particularly those utilising event-based vision sensors, provide an efficient alternative by capturing data only when changes are perceived in the scene. This approach minimises power consumption while delivering high-speed, low-latency feedback. In this work, we propose a fully event-based pipeline for egomotion estimation that processes the event stream directly within the event-based domain. This method eliminates the need for frame-based intermediaries, allowing for low-latency and energy-efficient motion estimation. We construct a shallow spiking neural network using a synaptic gating mechanism to convert precise event timing into bursts of spikes. These spikes encode local optical flow velocities, and the network provides an event-based readout of egomotion. We evaluate the network’s performance on a dedicated chip, demonstrating strong potential for low-latency, low-power motion estimation. Additionally, simulations of larger networks show that the system achieves state-of-the-art accuracy in egomotion estimation tasks with event-based cameras, making it a promising solution for real-time, power-constrained robotics applications.

arxiv情報

著者 Hugh Greatorex,Michele Mastella,Madison Cotteret,Ole Richter,Elisabetta Chicca
発行日 2025-01-20 15:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV, cs.RO | コメントする

GenEx: Generating an Explorable World

要約

3D の物理的な現実世界を理解し、ナビゲートし、探索することは、長い間、人工知能の開発における中心的な課題でした。
この研究では、周囲の環境についての事前予測 (期待) を形成する生成的想像力に導かれ、複雑な具体化された世界の探索を計画できるシステムである GenEx を導入することで、この目標に向けて一歩を踏み出します。
GenEx は、単一の RGB 画像から 3D 一貫性のある想像力豊かな環境全体を生成し、パノラマ ビデオ ストリームを通じてその環境に命を吹き込みます。
Unreal Engine から厳選されたスケーラブルな 3D ワールド データを活用して、生成モデルは物理世界で丸められます。
わずかな労力で継続的な 360 度の環境をキャプチャし、AI エージェントが探索して対話できる無限の風景を提供します。
GenEx は、高品質のワールド生成、長い軌跡にわたる堅牢なループの一貫性を実現し、一貫性やアクティブ 3D マッピングなどの強力な 3D 機能を実証します。
GPT 支援エージェントは、世界の生成的想像力を活用して、目標にとらわれない探索と目標主導型ナビゲーションの両方を含む、複雑な具体化されたタスクを実行する機能を備えています。
これらのエージェントは、物理世界の目に見えない部分に関する予測的期待を利用して信念を磨き、潜在的な決定に基づいてさまざまな結果をシミュレートし、より多くの情報に基づいた選択を行います。
要約すると、GenEx が想像力豊かな空間で身体化 AI を進化させるための革新的なプラットフォームを提供し、これらの機能を現実世界の探索に拡張する可能性をもたらすことを実証します。

要約(オリジナル)

Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.

arxiv情報

著者 Taiming Lu,Tianmin Shu,Junfei Xiao,Luoxin Ye,Jiahao Wang,Cheng Peng,Chen Wei,Daniel Khashabi,Rama Chellappa,Alan Yuille,Jieneng Chen
発行日 2025-01-20 16:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする