OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting

要約

この論文では、単一のカメラまたは携帯電話で撮影できる従来の狭視野 (NFoV) 画像を考慮して 360 度画像を生成するという最近人気のトピックに取り組みます。
このタスクは、NFoV 画像から合理的かつ一貫した環境を予測することを目的としています。
特徴抽出および融合のための既存の方法は、多くの場合、トランスフォーマーベースのアーキテクチャで構築されており、大量のメモリ使用量と計算コストが発生します。
また、360 度画像全体で視覚的な連続性を維持するのにも限界があり、テクスチャやスタイルの生成に一貫性がなくなる可能性があります。
前述の問題を解決するために、我々は、Mamba と呼ばれる状態空間モデルを備え、その長期シーケンス モデリングと空間的連続性を利用する、新しいテキスト ガイド付きアウトペイント フレームワークを提案します。
さらに、テキスト情報を組み込むことは、画像生成をガイドし、詳細なコンテキストでプロセスを充実させ、多様性を高めるための効果的な戦略です。
テキストの特徴を効率的に抽出し、それらを画像属性と統合することは、360 度画像のアウトペイントにとって大きな課題となります。
これに対処するために、Visual-textual Consistency Refiner (VCR) と Global-local Mamba Adapter (GMA) という 2 つのモジュールを開発しました。
VCR は、変更されたテキストの特徴と画像の特徴を融合することでコンテキストの豊かさを強化し、GMA はグローバルな表現からローカルな表現への情報フローを捕捉することで適応的な状態選択条件を提供します。
私たちが提案する手法は、屋内と屋外の設定を含む、広く使用されている 2 つの 360 度画像データセットに対する広範な実験により、最先端のパフォーマンスを実現します。

要約(オリジナル)

In this paper, we tackle the recently popular topic of generating 360-degree images given the conventional narrow field of view (NFoV) images that could be taken from a single camera or cellphone. This task aims to predict the reasonable and consistent surroundings from the NFoV images. Existing methods for feature extraction and fusion, often built with transformer-based architectures, incur substantial memory usage and computational expense. They also have limitations in maintaining visual continuity across the entire 360-degree images, which could cause inconsistent texture and style generation. To solve the aforementioned issues, we propose a novel text-guided out-painting framework equipped with a State-Space Model called Mamba to utilize its long-sequence modelling and spatial continuity. Furthermore, incorporating textual information is an effective strategy for guiding image generation, enriching the process with detailed context and increasing diversity. Efficiently extracting textual features and integrating them with image attributes presents a significant challenge for 360-degree image out-painting. To address this, we develop two modules, Visual-textual Consistency Refiner (VCR) and Global-local Mamba Adapter (GMA). VCR enhances contextual richness by fusing the modified text features with the image features, while GMA provides adaptive state-selective conditions by capturing the information flow from global to local representations. Our proposed method achieves state-of-the-art performance with extensive experiments on two broadly used 360-degree image datasets, including indoor and outdoor settings.

arxiv情報

著者 Penglei Gao,Kai Yao,Tiandi Ye,Steven Wang,Yuan Yao,Xiaofeng Wang
発行日 2024-07-15 17:23:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク