要約
対象主導の画像生成は、テキストガイダンスを順守しながら、主題のアイデンティティを参照画像から忠実に保存する新しいシーンを統合することを目的としていますが、既存の方法は忠実さと効率の間の重要なトレードオフに苦しんでいます。
チューニングベースのアプローチは、時間のかかるリソース集約型の主題固有の最適化に依存していますが、ゼロショットメソッドは適切なサブジェクトの一貫性を維持できません。
この作業では、クロスイメージ機能のグラフトを通じてこれらの制限に対処するトレーニングなしのフレームワークであるFreegraftorを提案します。
具体的には、FreeGraftorはセマンティックマッチングと位置制約の注意融合を使用して、参照科目から生成された画像に視覚的な詳細を転送します。
さらに、当社のフレームワークには、堅牢な特徴マッチングのために参照主題のジオメトリプリエを保持するための新しいノイズ初期化戦略が組み込まれています。
広範な定性的および定量的実験は、テキストに合わせたシーンの統合を維持しながら、私たちの方法が正確な被験者の同一性転送を可能にすることを示しています。
モデルの微調整や追加のトレーニングを必要とせずに、FreeGraftorは、既存のゼロショットとテキストの忠実度とテキストの調整の両方で大幅に優れています。
さらに、私たちのフレームワークは、マルチサブジェクトの生成にシームレスに拡張することができ、実際の展開に実用的になります。
私たちのコードは、https://github.com/nihukat/freegraftorで入手できます。
要約(オリジナル)
Subject-driven image generation aims to synthesize novel scenes that faithfully preserve subject identity from reference images while adhering to textual guidance, yet existing methods struggle with a critical trade-off between fidelity and efficiency. Tuning-based approaches rely on time-consuming and resource-intensive subject-specific optimization, while zero-shot methods fail to maintain adequate subject consistency. In this work, we propose FreeGraftor, a training-free framework that addresses these limitations through cross-image feature grafting. Specifically, FreeGraftor employs semantic matching and position-constrained attention fusion to transfer visual details from reference subjects to the generated image. Additionally, our framework incorporates a novel noise initialization strategy to preserve geometry priors of reference subjects for robust feature matching. Extensive qualitative and quantitative experiments demonstrate that our method enables precise subject identity transfer while maintaining text-aligned scene synthesis. Without requiring model fine-tuning or additional training, FreeGraftor significantly outperforms existing zero-shot and training-free approaches in both subject fidelity and text alignment. Furthermore, our framework can seamlessly extend to multi-subject generation, making it practical for real-world deployment. Our code is available at https://github.com/Nihukat/FreeGraftor.
arxiv情報
著者 | Zebin Yao,Lei Ren,Huixing Jiang,Chen Wei,Xiaojie Wang,Ruifan Li,Fangxiang Feng |
発行日 | 2025-04-22 14:55:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google