DIffSteISR: Harnessing Diffusion Prior for Superior Real-world Stereo Image Super-Resolution

要約

現実世界のステレオ画像を再構成するための先駆的なフレームワークである DiffSteISR を紹介します。
DiffSteISR は、事前トレーニングされたテキストから画像へのモデルに埋め込まれた強力な事前知識を利用して、低解像度のステレオ画像で失われたテクスチャの詳細を効率的に復元します。
具体的には、DiffSteISR は、温度アダプター (TASCATA) を使用した時間認識ステレオ クロス アテンションを実装して拡散プロセスをガイドし、生成された左右のビューが高いテクスチャ一貫性を示すようにして、超解像画像とグラウンド トゥルースの間の視差エラーを低減します (
GT)の画像。
さらに、ピクセル、知覚、および分布空間における超解像画像と GT 画像の一貫性を高めるために、ステレオ全注意制御ネットワーク (SOA ControlNet) が提案されています。
最後に、DiffSteISR には、独自の視点のソフト セマンティック情報と共有ハード タグ セマンティック情報をキャプチャするステレオ セマンティック エクストラクター (SSE) が組み込まれており、これにより、生成された左右の画像のセマンティック精度と一貫性が効果的に向上します。
広範な実験結果は、DiffSteISR が、左ビューと右ビューの間でセマンティックとテクスチャの高い一貫性を維持しながら、低解像度のステレオ画像から自然で正確なテクスチャを正確に再構築することを示しています。

要約(オリジナル)

We introduce DiffSteISR, a pioneering framework for reconstructing real-world stereo images. DiffSteISR utilizes the powerful prior knowledge embedded in pre-trained text-to-image model to efficiently recover the lost texture details in low-resolution stereo images. Specifically, DiffSteISR implements a time-aware stereo cross attention with temperature adapter (TASCATA) to guide the diffusion process, ensuring that the generated left and right views exhibit high texture consistency thereby reducing disparity error between the super-resolved images and the ground truth (GT) images. Additionally, a stereo omni attention control network (SOA ControlNet) is proposed to enhance the consistency of super-resolved images with GT images in the pixel, perceptual, and distribution space. Finally, DiffSteISR incorporates a stereo semantic extractor (SSE) to capture unique viewpoint soft semantic information and shared hard tag semantic information, thereby effectively improving the semantic accuracy and consistency of the generated left and right images. Extensive experimental results demonstrate that DiffSteISR accurately reconstructs natural and precise textures from low-resolution stereo images while maintaining a high consistency of semantic and texture between the left and right views.

arxiv情報

著者 Yuanbo Zhou,Xinlin Zhang,Wei Deng,Tao Wang,Tao Tan,Qinquan Gao,Tong Tong
発行日 2024-08-14 12:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク