要約
画像生成の課題は、事前構造または変換の問題として効果的にモデル化されています。
ただし、既存のモデルは、特定の固有の特徴 (たとえば、局所的な帰納的事前分布) のために、グローバルな入力画像構造を理解する際のパフォーマンスが不十分です。
最近の研究では、自己注意が画像完成の問題に対する効率的なモデリング手法であることが示されています。
このペーパーでは、画像のコンポーネント間の関係をより深く理解するために、距離ベースの加重変換 (DWT) に依存する新しいアーキテクチャを提案します。
私たちのモデルでは、畳み込みニューラル ネットワーク (CNN) と DWT ブロックの両方の長所を活用して、画像完成プロセスを強化します。
具体的には、CNN は粗い事前分布のローカル テクスチャ情報を増強するために使用され、DWT ブロックは特定の粗いテクスチャと一貫した視覚構造を復元するために使用されます。
一般に CNN を使用して特徴マップを作成する現在のアプローチとは異なり、DWT を使用してグローバルな依存関係をエンコードし、距離に基づいて重み付けされた特徴マップを計算します。これにより、視覚的な曖昧さの問題が大幅に最小限に抑えられます。
一方、繰り返しテクスチャをより適切に生成するために、Residual Fast Fourier Convolution (Res-FFC) ブロックを導入して、エンコーダーのスキップ機能とジェネレーターが提供する粗い機能を組み合わせます。
さらに、畳み込みの非ゼロ値を正規化し、勾配ノルムを正則化するためにネットワーク層を微調整して、効率的なトレーニング安定化を実現する、シンプルだが効果的な手法が提案されています。
3 つの困難なデータセットに対する広範な定量的および定性的な実験により、既存のアプローチと比較して、提案されたモデルの優位性が実証されました。
要約(オリジナル)
The challenge of image generation has been effectively modeled as a problem of structure priors or transformation. However, existing models have unsatisfactory performance in understanding the global input image structures because of particular inherent features (for example, local inductive prior). Recent studies have shown that self-attention is an efficient modeling technique for image completion problems. In this paper, we propose a new architecture that relies on Distance-based Weighted Transformer (DWT) to better understand the relationships between an image’s components. In our model, we leverage the strengths of both Convolutional Neural Networks (CNNs) and DWT blocks to enhance the image completion process. Specifically, CNNs are used to augment the local texture information of coarse priors and DWT blocks are used to recover certain coarse textures and coherent visual structures. Unlike current approaches that generally use CNNs to create feature maps, we use the DWT to encode global dependencies and compute distance-based weighted feature maps, which substantially minimizes the problem of visual ambiguities. Meanwhile, to better produce repeated textures, we introduce Residual Fast Fourier Convolution (Res-FFC) blocks to combine the encoder’s skip features with the coarse features provided by our generator. Furthermore, a simple yet effective technique is proposed to normalize the non-zero values of convolutions, and fine-tune the network layers for regularization of the gradient norms to provide an efficient training stabiliser. Extensive quantitative and qualitative experiments on three challenging datasets demonstrate the superiority of our proposed model compared to existing approaches.
arxiv情報
著者 | Pourya Shamsolmoali,Masoumeh Zareapoor,Huiyu Zhou,Xuelong Li,Yue Lu |
発行日 | 2023-10-11 12:46:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google