Semantic Image Synthesis via Class-Adaptive Cross-Attention

要約

セマンティック画像合成では、最先端の空間適応正規化レイヤーを使用する方法が主流であり、これにより優れたビジュアル生成品質と編集の多様性が可能になります。
その有効性を認められて、最近の研究努力は、よりきめの細かいローカル スタイルの制御とマルチモーダル生成に焦点を当てています。
ただし、そのようなレイヤーは構造上、グローバルな画像統計を見落とす傾向があり、説得力のないローカル スタイル編集につながり、色や照明分布のシフトなどのグローバルな不一致を引き起こします。
また、ジェネレーターでスタイルをマッピングするにはセマンティック レイアウトが必要であり、フィーチャに対して厳密な位置合わせ制約が課されます。
これに応えて、画像生成を調整するために非正規化レイヤーの代わりにクロスアテンション レイヤーを使用する新しいアーキテクチャを設計しました。
私たちのモデルは両方のソリューションの利点を継承し、最先端の再構成品質を維持するだけでなく、グローバルおよびローカルのスタイル転送も改善されています。
コードとモデルは https://github.com/TFonta/CA2SIS で入手できます。

要約(オリジナル)

In semantic image synthesis, the state of the art is dominated by methods that use spatially-adaptive normalization layers, which allow for excellent visual generation quality and editing versatility. Granted their efficacy, recent research efforts have focused toward finer-grained local style control and multi-modal generation. By construction though, such layers tend to overlook global image statistics leading to unconvincing local style editing and causing global inconsistencies such as color or illumination distribution shifts. Also, the semantic layout is required for mapping styles in the generator, putting a strict alignment constraint over the features. In response, we designed a novel architecture where cross-attention layers are used in place of de-normalization ones for conditioning the image generation. Our model inherits the advantages of both solutions, retaining state-of-the-art reconstruction quality, as well as improved global and local style transfer. Code and models available at https://github.com/TFonta/CA2SIS.

arxiv情報

著者 Tomaso Fontanini,Claudio Ferrari,Giuseppe Lisanti,Massimo Bertozzi,Andrea Prati
発行日 2023-08-30 14:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク