PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control

要約

私たちは、単一のパスで顕著な結果を達成するマルチインストラクション画像編集への画期的なアプローチであるPropentArtisanを提示し、時間のかかる反復改良の必要性を排除します。
私たちの方法により、ユーザーは複数の編集手順を提供することができます。それぞれが画像内の特定のマスクに関連付けられています。
この柔軟性により、マスクの交差点や重複を含む複雑な編集が可能になり、複雑で微妙な画像変換の実現が可能になります。
ProspRARTISANは、新規の完全な注意制御メカニズム(CACM)と組み合わせて、事前に訓練されたinstantPix2Pixモデルを活用します。
このメカニズムは、ユーザーの命令を正確に順守し、編集プロセスをきめ細かく制御することを保証します。
さらに、私たちのアプローチはゼロショットであり、追加のトレーニングを必要とせず、従来の反復方法と比較して処理の複雑さが改善されています。
マルチインストラクション機能、シングルパス効率、および完全な注意制御をシームレスに統合することにより、ProspRATISANは、初心者と専門家の両方のユーザーの両方にケータリングする創造的で効率的な画像編集ワークフローの新しい可能性を解き放ちます。

要約(オリジナル)

We present PromptArtisan, a groundbreaking approach to multi-instruction image editing that achieves remarkable results in a single pass, eliminating the need for time-consuming iterative refinement. Our method empowers users to provide multiple editing instructions, each associated with a specific mask within the image. This flexibility allows for complex edits involving mask intersections or overlaps, enabling the realization of intricate and nuanced image transformations. PromptArtisan leverages a pre-trained InstructPix2Pix model in conjunction with a novel Complete Attention Control Mechanism (CACM). This mechanism ensures precise adherence to user instructions, granting fine-grained control over the editing process. Furthermore, our approach is zero-shot, requiring no additional training, and boasts improved processing complexity compared to traditional iterative methods. By seamlessly integrating multi-instruction capabilities, single-pass efficiency, and complete attention control, PromptArtisan unlocks new possibilities for creative and efficient image editing workflows, catering to both novice and expert users alike.

arxiv情報

著者 Kunal Swami,Raghu Chittersu,Pranav Adlinge,Rajeev Irny,Shashavali Doodekula,Alok Shukla
発行日 2025-02-14 16:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク