DE-Net: Dynamic Text-guided Image Editing Adversarial Networks

要約

テキストガイド付き画像編集モデルは、驚くべき結果を示しています。
ただし、2つの問題が残っています。
まず、さまざまな編集要件(色の変更、テクスチャの変更、コンテンツの追加と削除など)に固定操作モジュールを採用しているため、過剰な編集や不十分な編集が発生します。
第二に、テキストが必要な部分とテキストに関係のない部分を明確に区別していないため、編集が不正確になります。
これらの制限を解決するために、次のことを提案します。(i)さまざまな編集要件に対して空間およびチャネルごとの操作を動的に組み合わせる動的編集ブロック(DEBlock)。
(ii)テキストおよび視覚的特徴の推論に従ってDEBlockの組み合わせ重みを予測する組み合わせ重み予測子(CWP)。
(iii)テキストが必要な部分とテキストに関係のない部分を区別するためにソース画像の特徴を照会する動的テキスト適応畳み込みブロック(DCBlock)。
広範な実験により、DE-Netは優れたパフォーマンスを実現し、ソース画像をより効果的かつ正確に操作できることが実証されています。
コードは\url{https://github.com/tobran/DE-Net}で入手できます。

要約(オリジナル)

Text-guided image editing models have shown remarkable results. However, there remain two problems. First, they employ fixed manipulation modules for various editing requirements (e.g., color changing, texture changing, content adding and removing), which result in over-editing or insufficient editing. Second, they do not clearly distinguish between text-required parts and text-irrelevant parts, which leads to inaccurate editing. To solve these limitations, we propose: (i) a Dynamic Editing Block (DEBlock) which combines spatial- and channel-wise manipulations dynamically for various editing requirements. (ii) a Combination Weights Predictor (CWP) which predicts the combination weights for DEBlock according to the inference on text and visual features. (iii) a Dynamic text-adaptive Convolution Block (DCBlock) which queries source image features to distinguish text-required parts and text-irrelevant parts. Extensive experiments demonstrate that our DE-Net achieves excellent performance and manipulates source images more effectively and accurately. Code is available at \url{https://github.com/tobran/DE-Net}.

arxiv情報

著者 Ming Tao,Bing-Kun Bao,Hao Tang,Fei Wu,Longhui Wei,Qi Tian
発行日 2022-06-02 17:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク