PixelHacker: Image Inpainting with Structural and Semantic Consistency

要約

画像の開始は、画像編集と画像生成の間の基本的な研究領域です。
最近の最先端の(SOTA)方法は、新しい注意メカニズム、軽量アーキテクチャ、およびコンテキスト認識モデリングを調査し、印象的なパフォーマンスを実証しています。
しかし、彼らはしばしば複雑な構造(テクスチャ、形状、空間関係など)とセマンティクス(例えば、色の一貫性、オブジェクトの回復、論理的正しさなど)と格闘し、アーティファクトと不適切な発電につながります。
この課題に対処するために、潜在的なカテゴリガイダンスと呼ばれるシンプルで効果的なパラダイムを設計し、PixelHackerという名前の拡散ベースのモデルをさらに提案します。
具体的には、最初に、前景と背景(それぞれ潜在的な116と21のカテゴリ)に注釈を付けて、1400万の画像マスクペアを含む大きなデータセットを構築します。
次に、潜在的な前景と背景表現を2つの固定サイズの埋め込みを通じて個別にエンコードし、線形の注意を払ってこれらの特徴を断続的に除去プロセスに注入します。
最後に、データセットでの事前トレーニングとオープンソースのベンチマークでの微調整により、PixelHackerを取得します。
広範な実験では、Pixelhackerが幅広いデータセット(Places2、Celeba-HQ、およびFFHQ)でSOTAを包括的に上回り、構造とセマンティクスの両方で顕著な一貫性を示すことが示されています。
https://hustvl.github.io/pixelhackerのプロジェクトページ。

要約(オリジナル)

Image inpainting is a fundamental research area between image editing and image generation. Recent state-of-the-art (SOTA) methods have explored novel attention mechanisms, lightweight architectures, and context-aware modeling, demonstrating impressive performance. However, they often struggle with complex structure (e.g., texture, shape, spatial relations) and semantics (e.g., color consistency, object restoration, and logical correctness), leading to artifacts and inappropriate generation. To address this challenge, we design a simple yet effective inpainting paradigm called latent categories guidance, and further propose a diffusion-based model named PixelHacker. Specifically, we first construct a large dataset containing 14 million image-mask pairs by annotating foreground and background (potential 116 and 21 categories, respectively). Then, we encode potential foreground and background representations separately through two fixed-size embeddings, and intermittently inject these features into the denoising process via linear attention. Finally, by pre-training on our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker. Extensive experiments show that PixelHacker comprehensively outperforms the SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits remarkable consistency in both structure and semantics. Project page at https://hustvl.github.io/PixelHacker.

arxiv情報

著者 Ziyang Xu,Kangsheng Duan,Xiaolei Shen,Zhifeng Ding,Wenyu Liu,Xiaohu Ruan,Xiaoxin Chen,Xinggang Wang
発行日 2025-04-30 14:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク