Semantic Image Synthesis via Class-Adaptive Cross-Attention

要約

セマンティック画像合成では、最先端の空間適応型 DE 正規化 (SPADE) レイヤーのカスタマイズされたバリアントを使用する方法が主流であり、これにより優れたビジュアル生成品質と編集の多様性が可能になります。
設計上、このような層はピクセルごとの変調パラメータを学習し、各ピクセルが属するセマンティック クラスに基づいてジェネレーターのアクティベーションを非正規化します。
したがって、全体的な画像統計を無視する傾向があり、最終的には説得力のないローカル スタイル編集につながり、色や照明分布のシフトなど全体的な不一致が発生します。
また、SPADE レイヤーには、ジェネレーターでスタイルをマッピングするためのセマンティック セグメンテーション マスクが必要であり、手動介入なしで形状を操作することはできません。
これに応えて、形状スタイルの相関を学習して画像生成プロセスを調整するために、SPADE の代わりにクロスアテンション レイヤーを使用する新しいアーキテクチャを設計しました。
私たちのモデルは、SPADE の多用途性を継承し、同時に最先端の世代品質を獲得し、グローバルおよびローカルのスタイルの伝達を改善しました。
コードとモデルは https://github.com/TFonta/CA2SIS で入手できます。

要約(オリジナル)

In semantic image synthesis the state of the art is dominated by methods that use customized variants of the SPatially-Adaptive DE-normalization (SPADE) layers, which allow for good visual generation quality and editing versatility. By design, such layers learn pixel-wise modulation parameters to de-normalize the generator activations based on the semantic class each pixel belongs to. Thus, they tend to overlook global image statistics, ultimately leading to unconvincing local style editing and causing global inconsistencies such as color or illumination distribution shifts. Also, SPADE layers require the semantic segmentation mask for mapping styles in the generator, preventing shape manipulations without manual intervention. In response, we designed a novel architecture where cross-attention layers are used in place of SPADE for learning shape-style correlations and so conditioning the image generation process. Our model inherits the versatility of SPADE, at the same time obtaining state-of-the-art generation quality, as well as improved global and local style transfer. Code and models available at https://github.com/TFonta/CA2SIS.

arxiv情報

著者 Tomaso Fontanini,Claudio Ferrari,Giuseppe Lisanti,Massimo Bertozzi,Andrea Prati
発行日 2024-07-30 13:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク