要約
マルチモダリティの領域では、ディープ ラーニングの出現により、テキスト ガイドによる画像レタッチ技術が登場しました。
ただし、現在利用可能なほとんどのテキスト ガイド方式は、オブジェクト レベルの監視に依存して、変更可能な領域を制限しています。
これにより、これらのアルゴリズムの開発がより困難になるだけでなく、画像のレタッチに使用できる深層学習の範囲も制限されます。
このホワイト ペーパーでは、この懸念に対処するための一貫した結果が得られる、テキスト ガイドによるマスクのない画像レタッチ アプローチを提供します。
マスクの監督なしで画像のレタッチを実行するために、私たちの手法は、画像内の各オブジェクトのテキストに基づいて、もっともらしいエッジシャープなマスクを構築できます。
広範な実験により、私たちの方法が話し言葉に基づいて高品質で正確な画像を生成できることが示されました。
ソースコードは近日公開予定です。
要約(オリジナル)
In the realm of multi-modality, text-guided image retouching techniques emerged with the advent of deep learning. Most currently available text-guided methods, however, rely on object-level supervision to constrain the region that may be modified. This not only makes it more challenging to develop these algorithms, but it also limits how widely deep learning can be used for image retouching. In this paper, we offer a text-guided mask-free image retouching approach that yields consistent results to address this concern. In order to perform image retouching without mask supervision, our technique can construct plausible and edge-sharp masks based on the text for each object in the image. Extensive experiments have shown that our method can produce high-quality, accurate images based on spoken language. The source code will be released soon.
arxiv情報
著者 | Zerun Liu,Fan Zhang,Jingxuan He,Jin Wang,Zhangye Wang,Lechao Cheng |
発行日 | 2023-02-24 05:46:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google