要約
大規模な自由形状欠損領域を用いた画像補完は、コンピュータビジョンのコミュニティにとって最も困難なタスクの一つである。研究者がより良い解決策を追求する一方で、パターンの認識不足、不鮮明なテクスチャ、構造の歪みなどの欠点が顕著であり、改善の余地が残されています。これらの課題を克服するために、我々は新しいStyleGANベースの画像補完ネットワーク、スペクトルヒントGAN(SH-GAN)を提案し、その内部に慎重に設計されたスペクトル処理モジュール、スペクトルヒントユニットを導入する。また、2つの新しい2次元スペクトル処理戦略、異種フィルタリングとガウス分割を提案し、現代の深層学習モデルによく適合し、さらに他のタスクに拡張される可能性がある。我々の包括的な実験から、我々のモデルはベンチマークデータセットFFHQとPlaces2において3.4134と7.0277のFIDスコアに到達できることを実証し、したがって先行研究を上回り、新しい最先端技術に到達することができる。また、アブレーションの研究により、我々の設計の有効性を証明し、前述の課題、すなわち、パターン認識、ぼやけたテクスチャ、構造の歪みが顕著に解決されることに気づかれるかもしれません。我々のコードは、https://github.com/SHI-Labs/SH-GAN でオープンソース化される予定です。
要約(オリジナル)
Image completion with large-scale free-form missing regions is one of the most challenging tasks for the computer vision community. While researchers pursue better solutions, drawbacks such as pattern unawareness, blurry textures, and structure distortion remain noticeable, and thus leave space for improvement. To overcome these challenges, we propose a new StyleGAN-based image completion network, Spectral Hint GAN (SH-GAN), inside which a carefully designed spectral processing module, Spectral Hint Unit, is introduced. We also propose two novel 2D spectral processing strategies, Heterogeneous Filtering and Gaussian Split that well-fit modern deep learning models and may further be extended to other tasks. From our inclusive experiments, we demonstrate that our model can reach FID scores of 3.4134 and 7.0277 on the benchmark datasets FFHQ and Places2, and therefore outperforms prior works and reaches a new state-of-the-art. We also prove the effectiveness of our design via ablation studies, from which one may notice that the aforementioned challenges, i.e. pattern unawareness, blurry textures, and structure distortion, can be noticeably resolved. Our code will be open-sourced at: https://github.com/SHI-Labs/SH-GAN.
arxiv情報
著者 | Xingqian Xu,Shant Navasardyan,Vahram Tadevosyan,Andranik Sargsyan,Yadong Mu,Humphrey Shi |
発行日 | 2022-11-07 17:15:16+00:00 |
arxivサイト | arxiv_id(pdf) |