Zero-shot Image Editing with Reference Imitation

要約

画像編集は、ユーザーからの多様な要求を考慮した実用的でありながらやりがいのある作業であり、最も難しい部分の 1 つは、編集された画像がどのように見えるべきかを正確に説明することです。
この研究では、ユーザーが創造性をより便利に発揮できるように、模倣編集と呼ばれる新しい編集形式を紹介します。
具体的には、画像の関心領域を編集するために、ユーザーは、参照とソースの間の適合に対処する必要なく、実際に存在する参照 (オンラインで入手できる関連画像など) から自由に直接インスピレーションを引き出すことができます。
このような設計では、編集を実行するために参照から何が期待されるかをシステムが自動的に判断する必要があります。
この目的のために、我々は MimicBrush と呼ばれる生成トレーニング フレームワークを提案します。これは、ビデオ クリップから 2 つのフレームをランダムに選択し、1 つのフレームの一部の領域をマスクし、他のフレームからの情報を使用してマスクされた領域を復元することを学習します。
このようにして、拡散事前に基づいて開発された私たちのモデルは、自己教師ありの方法で別々の画像間の意味論的な対応を捉えることができます。
私たちは、さまざまなテストケースの下での私たちの方法の有効性と、既存の代替案に対するその優位性を実験的に示します。
また、さらなる研究を促進するためにベンチマークも構築します。

要約(オリジナル)

Image editing serves as a practical yet challenging task considering the diverse demands from users, where one of the hardest parts is to precisely describe how the edited image should look like. In this work, we present a new form of editing, termed imitative editing, to help users exercise their creativity more conveniently. Concretely, to edit an image region of interest, users are free to directly draw inspiration from some in-the-wild references (e.g., some relative pictures come across online), without having to cope with the fit between the reference and the source. Such a design requires the system to automatically figure out what to expect from the reference to perform the editing. For this purpose, we propose a generative training framework, dubbed MimicBrush, which randomly selects two frames from a video clip, masks some regions of one frame, and learns to recover the masked regions using the information from the other frame. That way, our model, developed from a diffusion prior, is able to capture the semantic correspondence between separate images in a self-supervised manner. We experimentally show the effectiveness of our method under various test cases as well as its superiority over existing alternatives. We also construct a benchmark to facilitate further research.

arxiv情報

著者 Xi Chen,Yutong Feng,Mengting Chen,Yiyang Wang,Shilong Zhang,Yu Liu,Yujun Shen,Hengshuang Zhao
発行日 2024-06-11 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク