ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

要約

大規模なデータセットと大容量モデルは、コンピュータービジョンと自然言語理解における最近の多くの進歩を推進してきました。
この作品は、EmbodiedAIで同様のサクセスストーリーを可能にするプラットフォームを提供します。
身体化されたAI環境の手続き型生成のためのフレームワークであるProcTHORを提案します。
ProcTHORを使用すると、多様でインタラクティブ、カスタマイズ可能、パフォーマンスの高い仮想環境の任意の大規模なデータセットをサンプリングして、ナビゲーション、対話、および操作のタスク全体で具体化されたエージェントをトレーニングおよび評価できます。
10,000の生成された家のサンプルと単純なニューラルモデルを介して、ProcTHORのパワーと可能性を示します。
ProcTHORでRGB画像のみを使用してトレーニングされ、明示的なマッピングやヒューマンタスクの監視がないモデルは、現在実行中のHabitat 2022、AI2-を含む、ナビゲーション、再配置、および腕の操作のための6つの具体化されたAIベンチマーク全体で最先端の結果を生成します。
THOR再配置2022、およびRoboTHORチャレンジ。
また、ダウンストリームベンチマークを微調整せずに、ProcTHORでの事前トレーニングを介して、これらのベンチマークで強力な0ショットの結果を示します。多くの場合、ダウンストリームトレーニングデータにアクセスする以前の最先端のシステムを上回っています。

要約(オリジナル)

Massive datasets and high-capacity models have driven many recent advancements in computer vision and natural language understanding. This work presents a platform to enable similar success stories in Embodied AI. We propose ProcTHOR, a framework for procedural generation of Embodied AI environments. ProcTHOR enables us to sample arbitrarily large datasets of diverse, interactive, customizable, and performant virtual environments to train and evaluate embodied agents across navigation, interaction, and manipulation tasks. We demonstrate the power and potential of ProcTHOR via a sample of 10,000 generated houses and a simple neural model. Models trained using only RGB images on ProcTHOR, with no explicit mapping and no human task supervision produce state-of-the-art results across 6 embodied AI benchmarks for navigation, rearrangement, and arm manipulation, including the presently running Habitat 2022, AI2-THOR Rearrangement 2022, and RoboTHOR challenges. We also demonstrate strong 0-shot results on these benchmarks, via pre-training on ProcTHOR with no fine-tuning on the downstream benchmark, often beating previous state-of-the-art systems that access the downstream training data.

arxiv情報

著者 Matt Deitke,Eli VanderBilt,Alvaro Herrasti,Luca Weihs,Jordi Salvador,Kiana Ehsani,Winson Han,Eric Kolve,Ali Farhadi,Aniruddha Kembhavi,Roozbeh Mottaghi
発行日 2022-06-14 17:09:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク