PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation

要約

Vision-and-Language Navigation (VLN) では、エージェントが言語の指示に従って 3D 環境をナビゲートする必要があります。
VLN の主な課題の 1 つは、フォトリアルなトレーニング環境が限られているため、新しい環境や見たことのない環境に一般化することが困難であることです。
この問題に対処するために、私たちは、テキストに基づいて無限の多様なパノラマ環境を作成できる生成方法である PanoGen を提案します。
具体的には、既存の Matterport3D 環境の部屋の画像にキャプションを付けることで部屋の説明を収集し、最先端のテキストから画像への拡散モデルを活用して新しいパノラマ環境を生成します。
生成された画像に対して再帰的アウトペイントを使用して、一貫した 360 度のパノラマ ビューを作成します。
新しいパノラマ環境は、テキストの説明に基づいて条件付けすることにより、元の環境と同様のセマンティック情報を共有します。これにより、パノラマ内のオブジェクトの共起が人間の直観に従っていることが保証され、画像の塗りつぶしによって部屋の外観とレイアウトに十分な多様性が作成されます。
最後に、VLN の事前トレーニングと微調整で PanoGen を利用する 2 つの方法を検討します。
VLN の事前トレーニング用に、事前にトレーニングされた視覚および言語モデルに基づいて構築されたスピーカーを使用して、PanoGen 環境でパスの指示を生成し、エージェントの微調整中にパノラマ環境で視覚的な観察を強化して、見られるものへの過剰適合を回避します。
環境。
経験的には、PanoGen 環境で学習すると、Room-to-Room、Room-for-Room、CVDN データセットで新しい最先端のデータセットが実現します。
PanoGen スピーカー データを使用した事前トレーニングは、指示が不十分で常識的な知識が必要な CVDN に特に効果的です。
最後に、エージェントがより多く生成されたパノラマ環境を使用したトレーニングから利益を得ることができることを示し、PanoGen 環境をスケールアップするための有望な結果を示唆しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) requires the agent to follow language instructions to navigate through 3D environments. One main challenge in VLN is the limited availability of photorealistic training environments, which makes it hard to generalize to new and unseen environments. To address this problem, we propose PanoGen, a generation method that can potentially create an infinite number of diverse panoramic environments conditioned on text. Specifically, we collect room descriptions by captioning the room images in existing Matterport3D environments, and leverage a state-of-the-art text-to-image diffusion model to generate the new panoramic environments. We use recursive outpainting over the generated images to create consistent 360-degree panorama views. Our new panoramic environments share similar semantic information with the original environments by conditioning on text descriptions, which ensures the co-occurrence of objects in the panorama follows human intuition, and creates enough diversity in room appearance and layout with image outpainting. Lastly, we explore two ways of utilizing PanoGen in VLN pre-training and fine-tuning. We generate instructions for paths in our PanoGen environments with a speaker built on a pre-trained vision-and-language model for VLN pre-training, and augment the visual observation with our panoramic environments during agents’ fine-tuning to avoid overfitting to seen environments. Empirically, learning with our PanoGen environments achieves the new state-of-the-art on the Room-to-Room, Room-for-Room, and CVDN datasets. Pre-training with our PanoGen speaker data is especially effective for CVDN, which has under-specified instructions and needs commonsense knowledge. Lastly, we show that the agent can benefit from training with more generated panoramic environments, suggesting promising results for scaling up the PanoGen environments.

arxiv情報

著者 Jialu Li,Mohit Bansal
発行日 2023-05-30 16:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク