要約
マルチモーダル融合は、深度画像の超解像を成功させるために不可欠です。
ただし、加算や連結などの一般的に使用される融合戦略では、モーダル ギャップを効果的に埋めるには至っていません。
その結果、この問題を軽減するために、ガイド付き画像フィルタリング方法が導入されました。
それにもかかわらず、それらのフィルター カーネルは通常、重大なテクスチャ干渉とエッジの不正確さに遭遇することが観察されています。
これら 2 つの課題に取り組むために、大規模モデルからの事前表面法線とセマンティック マップを利用するシーン事前フィルタリング ネットワーク SPFNet を導入します。
具体的には、テクスチャ干渉を軽減するために、マルチモーダル シーンの事前確率、\textit{i.e.}、RGB、法線、セマンティック、深度の間の類似性を計算するオールインワンの事前伝播を設計します。
さらに、相互ガイドフィルタリングを使用して各シングルモーダル事前を深度に継続的に埋め込む1対1の事前埋め込みを提案し、エッジを強調しながらテクスチャ干渉をさらに軽減します。
当社の SPFNet は、実際のデータセットと合成データセットの両方で広範に評価され、最先端のパフォーマンスを実現しています。
要約(オリジナル)
Multi-modal fusion is vital to the success of super-resolution of depth images. However, commonly used fusion strategies, such as addition and concatenation, fall short of effectively bridging the modal gap. As a result, guided image filtering methods have been introduced to mitigate this issue. Nevertheless, it is observed that their filter kernels usually encounter significant texture interference and edge inaccuracy. To tackle these two challenges, we introduce a Scene Prior Filtering network, SPFNet, which utilizes the priors surface normal and semantic map from large-scale models. Specifically, we design an All-in-one Prior Propagation that computes the similarity between multi-modal scene priors, \textit{i.e.}, RGB, normal, semantic, and depth, to reduce the texture interference. In addition, we present a One-to-one Prior Embedding that continuously embeds each single-modal prior into depth using Mutual Guided Filtering, further alleviating the texture interference while enhancing edges. Our SPFNet has been extensively evaluated on both real and synthetic datasets, achieving state-of-the-art performance.
arxiv情報
著者 | Zhengxue Wang,Zhiqiang Yan,Ming-Hsuan Yang,Jinshan Pan,Jian Yang,Ying Tai,Guangwei Gao |
発行日 | 2024-02-21 15:35:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google