UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI


UnrealZoo は、Unreal Engine 上に構築された写真のようにリアルな 3D 仮想世界の豊富なコレクションであり、オープン ワールドの複雑さと多様性を反映するように設計されています。
さらに、身体化された AI エージェント用のさまざまなプレイ可能なエンティティを提供します。
UnrealCV に基づいて、データ収集、環境拡張、分散トレーニング、ベンチマークなどのさまざまな潜在的なアプリケーション向けに、使いやすい Python API とツールのスイートを提供します。
UnrealCV のレンダリングと通信の効率を最適化し、マルチエージェント インタラクションなどの高度なアプリケーションをサポートします。
この結果は、強化学習 (RL) エージェントのための多様なトレーニング環境の利点と、オープンワールドにおける RL および大規模ビジョン言語モデル (VLM) に基づくエージェントを含む現在の身体化ビジョン エージェントが直面する課題についての貴重な洞察をもたらします。
これらの課題には、動的シーンにおける閉ループ制御の遅延と、非構造化地形における 3D 空間構造に関する推論が含まれます。


We introduce UnrealZoo, a rich collection of photo-realistic 3D virtual worlds built on Unreal Engine, designed to reflect the complexity and variability of the open worlds. Additionally, we offer a variety of playable entities for embodied AI agents. Based on UnrealCV, we provide a suite of easy-to-use Python APIs and tools for various potential applications, such as data collection, environment augmentation, distributed training, and benchmarking. We optimize the rendering and communication efficiency of UnrealCV to support advanced applications, such as multi-agent interaction. Our experiments benchmark agents in various complex scenes, focusing on visual navigation and tracking, which are fundamental capabilities for embodied visual intelligence. The results yield valuable insights into the advantages of diverse training environments for reinforcement learning (RL) agents and the challenges faced by current embodied vision agents, including those based on RL and large vision-language models (VLMs), in open worlds. These challenges involve latency in closed-loop control in dynamic scenes and reasoning about 3D spatial structures in unstructured terrain.


著者 Fangwei Zhong,Kui Wu,Churan Wang,Hao Chen,Hai Ci,Zhoujun Li,Yizhou Wang
発行日 2024-12-30 14:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク