Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators

要約

構造ガイド付き画像補完は、ユーザーからの入力ガイダンス マップに従って画像の局所領域を修復することを目的としています。
このようなタスクにより、対話型編集の多くの実用的なアプリケーションが可能になりますが、既存の方法では、複雑な自然のシーンで現実的なオブジェクトのインスタンスを幻覚させるのに苦労することがよくあります。
このような制限は、ホール領域内に意味レベルの制約が存在しないことと、現実的なオブジェクト生成を強制するメカニズムが存在しないことが部分的に原因です。
この研究では、複雑な意味論とオブジェクトの生成を改善するために、意味論的弁別器とオブジェクトレベルの弁別器で構成される学習パラダイムを提案します。
具体的には、セマンティックディスクリミネーターは、事前トレーニングされた視覚的特徴を活用して、生成された視覚的概念のリアリズムを向上させます。
さらに、オブジェクトレベルの弁別器は、個々のオブジェクトのリアリズムを強制するために、位置合わせされたインスタンスを入力として受け取ります。
私たちが提案したスキームは生成品質を大幅に向上させ、Places2 データセットに対するセグメンテーションガイド付き補完、エッジガイド付き操作、パノラマガイド付き操作などのさまざまなタスクで最先端の結果を達成します。
さらに、トレーニングされたモデルは柔軟性があり、オブジェクトの挿入、置換、削除、標準の修復など、複数の編集ユースケースをサポートできます。
特に、新しい自動画像補完パイプラインと組み合わせたトレーニング済みモデルは、標準的な修復タスクで最先端の結果を達成します。

要約(オリジナル)

Structure-guided image completion aims to inpaint a local region of an image according to an input guidance map from users. While such a task enables many practical applications for interactive editing, existing methods often struggle to hallucinate realistic object instances in complex natural scenes. Such a limitation is partially due to the lack of semantic-level constraints inside the hole region as well as the lack of a mechanism to enforce realistic object generation. In this work, we propose a learning paradigm that consists of semantic discriminators and object-level discriminators for improving the generation of complex semantics and objects. Specifically, the semantic discriminators leverage pretrained visual features to improve the realism of the generated visual concepts. Moreover, the object-level discriminators take aligned instances as inputs to enforce the realism of individual objects. Our proposed scheme significantly improves the generation quality and achieves state-of-the-art results on various tasks, including segmentation-guided completion, edge-guided manipulation and panoptically-guided manipulation on Places2 datasets. Furthermore, our trained model is flexible and can support multiple editing use cases, such as object insertion, replacement, removal and standard inpainting. In particular, our trained model combined with a novel automatic image completion pipeline achieves state-of-the-art results on the standard inpainting task.

arxiv情報

著者 Haitian Zheng,Zhe Lin,Jingwan Lu,Scott Cohen,Eli Shechtman,Connelly Barnes,Jianming Zhang,Qing Liu,Yuqian Zhou,Sohrab Amirghodsi,Jiebo Luo
発行日 2024-04-24 00:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク