Optimisation-Based Multi-Modal Semantic Image Editing

要約

画像編集により、生成された画像の美しさと内容をより細かく制御できるようになります。
既存の作品は、目的の画像変更を実現するためのテキストベースの指示に主に焦点を当てており、編集の精度と精度が制限されています。
この研究では、テキスト編集を超えて複数の編集命令タイプ (空間レイアウト ベース、ポーズ、落書き、エッジ マップなど) に対応するように設計された推論時編集の最適化を提案します。
私たちは、編集タスクを 2 つの競合するサブタスク (ローカル画像変更の成功とグローバル コンテンツの一貫性保持) に分解することを提案します。サブタスクは 2 つの専用の損失関数によって導かれます。
各損失関数の影響を調整できるようにすることで、ユーザーの好みに合わせて調整できる柔軟な編集ソリューションを構築します。
テキスト、ポーズ、落書き編集条件を使用してメソッドを評価し、定性的および定量的実験の両方を通じて複雑な編集を実現する能力を強調します。

要約(オリジナル)

Image editing affords increased control over the aesthetics and content of generated images. Pre-existing works focus predominantly on text-based instructions to achieve desired image modifications, which limit edit precision and accuracy. In this work, we propose an inference-time editing optimisation, designed to extend beyond textual edits to accommodate multiple editing instruction types (e.g. spatial layout-based; pose, scribbles, edge maps). We propose to disentangle the editing task into two competing subtasks: successful local image modifications and global content consistency preservation, where subtasks are guided through two dedicated loss functions. By allowing to adjust the influence of each loss function, we build a flexible editing solution that can be adjusted to user preferences. We evaluate our method using text, pose and scribble edit conditions, and highlight our ability to achieve complex edits, through both qualitative and quantitative experiments.

arxiv情報

著者 Bowen Li,Yongxin Yang,Steven McDonagh,Shifeng Zhang,Petru-Daniel Tudosiu,Sarah Parisot
発行日 2023-11-28 15:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク