Instance-Aware Image Completion

要約

画像補完は、マスクされた画像の欠落領域をもっともらしい内容で埋めることを目的としたタスクです。
しかし、既存の画像補完方法は、シーンのコンテキストに応じて適切な視覚的なインスタンスを幻覚させるのではなく、欠落した領域を周囲のテクスチャで埋める傾向があります。
この研究では、ImComplete と呼ばれる新しい画像補完モデルを提案します。これは、元のコンテキストとよく調和し、したがって保存される、欠けているインスタンスを幻覚させます。
ImComplete は、まず、表示されているインスタンスと欠落領域の位置を考慮するトランスフォーマー アーキテクチャを採用します。
次に、ImComplete は欠落領域内のセマンティック セグメンテーション マスクを完成させ、ピクセル レベルのセマンティックおよび構造的なガイダンスを提供します。
最後に、画像合成ブロックがフォトリアリスティックなコンテンツを生成します。
COCO-panoptic データセットと Visual Genome データセットを使用して、視覚的品質 (LPIPS および FID) とコンテキスト保存スコア (CLIPscore およびオブジェクト検出精度) の観点から結果の包括的な評価を実行します。
実験結果は、さまざまな自然画像に対して ImComplete の優位性を示しています。

要約(オリジナル)

Image completion is a task that aims to fill in the missing region of a masked image with plausible contents. However, existing image completion methods tend to fill in the missing region with the surrounding texture instead of hallucinating a visual instance that is suitable in accordance with the context of the scene. In this work, we propose a novel image completion model, dubbed ImComplete, that hallucinates the missing instance that harmonizes well with – and thus preserves – the original context. ImComplete first adopts a transformer architecture that considers the visible instances and the location of the missing region. Then, ImComplete completes the semantic segmentation masks within the missing region, providing pixel-level semantic and structural guidance. Finally, the image synthesis blocks generate photo-realistic content. We perform a comprehensive evaluation of the results in terms of visual quality (LPIPS and FID) and contextual preservation scores (CLIPscore and object detection accuracy) with COCO-panoptic and Visual Genome datasets. Experimental results show the superiority of ImComplete on various natural images.

arxiv情報

著者 Jinoh Cho,Minguk Kang,Vibhav Vineet,Jaesik Park
発行日 2023-05-26 09:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク