StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

要約

この研究は、単眼カラーの入力 (つまり、画像やビデオ) からの高品質の表面法線推定の課題に取り組んでいます。この分野は、拡散事前分布を再利用することで最近革命が起きています。
ただし、これまでの試みでは、確率的推論、Image2Normal タスクの決定論的性質との矛盾、および推定プロセスを遅くするコストのかかるアンサンブル ステップに依然として苦戦しています。
私たちのメソッドである StableNormal は、推論の分散を減らすことで拡散プロセスの確率性を軽減し、追加のアンサンブル プロセスを行わずに「安定でシャープな」正規推定値を生成します。
StableNormal は、極端な照明、ぼやけ、低品質などの厳しいイメージング条件下でも堅牢に機能します。
また、透明な表面や反射する表面、また多数のオブジェクトが存在する乱雑なシーンに対しても堅牢です。
具体的には、StableNormal は、粗いものから細かいものへの戦略を採用しています。この戦略は、比較的粗いが信頼性の高い初期正規推定値を導出する 1 ステップ正規推定器 (YOSO) から始まり、その後、セマンティックガイドに基づく洗練プロセス (SG-
DRN) 法線を調整して幾何学的詳細を復元します。
StableNormal の有効性は、DIODE-indoor、iBims、ScannetV2、NYUv2 などの標準データセット、および表面再構成や法線強調などのさまざまな下流タスクにおける競合パフォーマンスを通じて実証されています。
これらの結果は、StableNormal が正確な法線推定のために「安定性」と「鮮明さ」の両方を保持していることを証明しています。
StableNormal は、決定論的推定のために拡散事前分布を再利用するという初期の試みを表します。
これを民主化するために、コードとモデルは hf.co/Stable-X で公開されています。

要約(オリジナル)

This work addresses the challenge of high-quality surface normal estimation from monocular colored inputs (i.e., images and videos), a field which has recently been revolutionized by repurposing diffusion priors. However, previous attempts still struggle with stochastic inference, conflicting with the deterministic nature of the Image2Normal task, and costly ensembling step, which slows down the estimation process. Our method, StableNormal, mitigates the stochasticity of the diffusion process by reducing inference variance, thus producing ‘Stable-and-Sharp’ normal estimates without any additional ensembling process. StableNormal works robustly under challenging imaging conditions, such as extreme lighting, blurring, and low quality. It is also robust against transparent and reflective surfaces, as well as cluttered scenes with numerous objects. Specifically, StableNormal employs a coarse-to-fine strategy, which starts with a one-step normal estimator (YOSO) to derive an initial normal guess, that is relatively coarse but reliable, then followed by a semantic-guided refinement process (SG-DRN) that refines the normals to recover geometric details. The effectiveness of StableNormal is demonstrated through competitive performance in standard datasets such as DIODE-indoor, iBims, ScannetV2 and NYUv2, and also in various downstream tasks, such as surface reconstruction and normal enhancement. These results evidence that StableNormal retains both the ‘stability’ and ‘sharpness’ for accurate normal estimation. StableNormal represents a baby attempt to repurpose diffusion priors for deterministic estimation. To democratize this, code and models have been publicly available in hf.co/Stable-X

arxiv情報

著者 Chongjie Ye,Lingteng Qiu,Xiaodong Gu,Qi Zuo,Yushuang Wu,Zilong Dong,Liefeng Bo,Yuliang Xiu,Xiaoguang Han
発行日 2024-06-24 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク