Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

要約

画像条件の画像生成の最近の進歩は、実質的な進歩を示しています。
ただし、前景で調整された画像生成は、露出度の低いままであり、オブジェクトの整合性の侵害、前景色の矛盾、限られた多様性、制御の柔軟性の低下などの課題に遭遇します。
これらの課題は、不正確なトレーニングマスク、限られた前景の意味的理解、データ分布バイアス、視覚とテキストのプロンプトの間の固有の干渉に悩まされる現在のエンドツーエンドの入力モデルから生じます。
これらの制限を克服するために、従来のエンドツーエンドアプローチから離れたマルチエージェントフレームワークをどこにでも提示します。
このフレームワークでは、各エージェントは、前景の理解、多様性の強化、オブジェクトの整合性保護、テキストの迅速な一貫性など、明確な側面に特化しています。
私たちのフレームワークは、オプションのユーザーテキスト入力を組み込み、自動化された品質評価を実行し、必要に応じて再生を開始する機能により、さらに強化されています。
包括的な実験は、このモジュラー設計が既存のエンドツーエンドモデルの制限を効果的に克服し、その結果、前景が調整された画像生成においてより高い忠実度、品質、多様性、制御性をもたらすことを示しています。
さらに、Anywhere Frameworkは拡張可能であり、個々のエージェントの将来の進歩から利益を得ることができます。

要約(オリジナル)

Recent advancements in image-conditioned image generation have demonstrated substantial progress. However, foreground-conditioned image generation remains underexplored, encountering challenges such as compromised object integrity, foreground-background inconsistencies, limited diversity, and reduced control flexibility. These challenges arise from current end-to-end inpainting models, which suffer from inaccurate training masks, limited foreground semantic understanding, data distribution biases, and inherent interference between visual and textual prompts. To overcome these limitations, we present Anywhere, a multi-agent framework that departs from the traditional end-to-end approach. In this framework, each agent is specialized in a distinct aspect, such as foreground understanding, diversity enhancement, object integrity protection, and textual prompt consistency. Our framework is further enhanced with the ability to incorporate optional user textual inputs, perform automated quality assessments, and initiate re-generation as needed. Comprehensive experiments demonstrate that this modular design effectively overcomes the limitations of existing end-to-end models, resulting in higher fidelity, quality, diversity and controllability in foreground-conditioned image generation. Additionally, the Anywhere framework is extensible, allowing it to benefit from future advancements in each individual agent.

arxiv情報

著者 Tianyidan Xie,Rui Ma,Qian Wang,Xiaoqian Ye,Feixuan Liu,Ying Tai,Zhenyu Zhang,Lanjun Wang,Zili Yi
発行日 2025-02-24 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク