Generative World Explorer

要約

部分的な観察を伴う計画は、身体化 AI における中心的な課題です。
これまでの研究の大部分は、世界状態についての信念を更新するために環境を物理的に探索するエージェントを開発することでこの課題に取り組んできました。対照的に、人間は精神的な探索と $\ を通じて世界の目に見えない部分を $\textit{想像}$ することができます。
彼らの信念を想像上の観察でテキスト化{改訂}$します。
このような最新の信念により、常に世界を物理的に探索する必要がなく、より多くの情報に基づいた意思決定を行うことができるようになります。
この人間のような能力を実現するために、$\textit{Generative World Explorer (Genex)}$ を導入します。これは、エージェントが大規模な 3D 世界 (都市の風景など) を頭の中で探索し、情報を取得できるようにする自己中心的な世界探索フレームワークです。
その信念を更新するための想像上の観察。
この更新された信念は、エージェントが現在のステップでより多くの情報に基づいた決定を下すのに役立ちます。
$\textit{Genex}$ をトレーニングするために、合成都市シーン データセット Genex-DB を作成します。
私たちの実験結果は、(1) $\textit{Genex}$ は、大規模な仮想物理世界の長期探索中に高品質で一貫した観測を生成できること、(2) 生成された観測で更新された信念が既存の決定に情報を提供できることを示しています。
– より良い計画を立てるためのモデル (LLM エージェントなど) の作成。

要約(オリジナル)

Planning with partial observation is a central challenge in embodied AI. A majority of prior works have tackled this challenge by developing agents that physically explore their environment to update their beliefs about the world state.In contrast, humans can $\textit{imagine}$ unseen parts of the world through a mental exploration and $\textit{revise}$ their beliefs with imagined observations. Such updated beliefs can allow them to make more informed decisions, without necessitating the physical exploration of the world at all times. To achieve this human-like ability, we introduce the $\textit{Generative World Explorer (Genex)}$, an egocentric world exploration framework that allows an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and acquire imagined observations to update its belief. This updated belief will then help the agent to make a more informed decision at the current step. To train $\textit{Genex}$, we create a synthetic urban scene dataset, Genex-DB. Our experimental results demonstrate that (1) $\textit{Genex}$ can generate high-quality and consistent observations during long-horizon exploration of a large virtual physical world and (2) the beliefs updated with the generated observations can inform an existing decision-making model (e.g., an LLM agent) to make better plans.

arxiv情報

著者 Taiming Lu,Tianmin Shu,Alan Yuille,Daniel Khashabi,Jieneng Chen
発行日 2024-11-18 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク