要約
高品質の環境照明は、モバイル拡張現実 (AR) アプリケーションで没入型のユーザー エクスペリエンスを作成する基盤です。
ただし、デバイスのカメラの FoV やピクセルのダイナミック レンジの制限など、AR デバイスのセンシング機能に関連するいくつかの重要な制限があるため、モバイル AR で視覚的に一貫した環境照明推定を実現することは困難です。
テキストや画像などのさまざまな種類のプロンプトから高品質の画像を生成できる生成 AI の最近の進歩は、高品質の照明推定のための潜在的なソリューションを示しています。
それでも、生成画像拡散モデルを効果的に使用するには、幻覚生成と推論プロセスの遅さという主要な制限に対処する必要があります。
そのために、この研究では、360$^\circ$ 画像の形式で高品質で多様な環境マップを生成できる CleAR と呼ばれる生成照明推定システムを設計および実装します。
具体的には、AR 環境コンテキスト データに基づいて 2 段階の生成パイプラインを設計し、結果が物理環境の視覚コンテキストと色の外観に確実に従うようにします。
さまざまな照明条件下での推定のロバスト性を向上させるために、AR デバイス上の照明推定結果を調整するリアルタイム調整コンポーネントを設計します。
生成モデルをトレーニングしてテストするために、さまざまな照明条件を備えた大規模な環境照明推定データセットを厳選します。
定量的評価とユーザー調査を通じて、CleAR が推定精度とロバスト性の両方において最先端の照明推定方法よりも優れていることを示します。
さらに、CleAR は照明推定結果のリアルタイムの改良をサポートし、AR アプリケーションの堅牢かつタイムリーな環境照明更新を保証します。
当社のエンドツーエンドの生成推定は 3.2 秒という速さで完了し、最先端の手法を 110 倍上回るパフォーマンスを発揮します。
要約(オリジナル)
High-quality environment lighting is the foundation of creating immersive user experiences in mobile augmented reality (AR) applications. However, achieving visually coherent environment lighting estimation for Mobile AR is challenging due to several key limitations associated with AR device sensing capabilities, including limitations in device camera FoV and pixel dynamic ranges. Recent advancements in generative AI, which can generate high-quality images from different types of prompts, including texts and images, present a potential solution for high-quality lighting estimation. Still, to effectively use generative image diffusion models, we must address their key limitations of generation hallucination and slow inference process. To do so, in this work, we design and implement a generative lighting estimation system called CleAR that can produce high-quality and diverse environment maps in the format of 360$^\circ$ images. Specifically, we design a two-step generation pipeline guided by AR environment context data to ensure the results follow physical environment visual context and color appearances. To improve the estimation robustness under different lighting conditions, we design a real-time refinement component to adjust lighting estimation results on AR devices. To train and test our generative models, we curate a large-scale environment lighting estimation dataset with diverse lighting conditions. Through quantitative evaluation and user study, we show that CleAR outperforms state-of-the-art lighting estimation methods on both estimation accuracy and robustness. Moreover, CleAR supports real-time refinement of lighting estimation results, ensuring robust and timely environment lighting updates for AR applications. Our end-to-end generative estimation takes as fast as 3.2 seconds, outperforming state-of-the-art methods by 110x.
arxiv情報
著者 | Yiqin Zhao,Mallesham Dasari,Tian Guo |
発行日 | 2024-11-04 15:37:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google