要約
画像補完は、マスクされた画像の欠けている領域をもっともらしい内容で埋めることを目的とするタスクです。
ただし、既存の画像補完方法は、シーンのコンテキストに従って適切な視覚的インスタンスを幻覚させる代わりに、欠落している領域を周囲のテクスチャで埋める傾向があります。
この作業では、ImComplete と呼ばれる新しい画像補完モデルを提案します。これは、元のコンテキストとうまく調和し、したがって保存される、欠落しているインスタンスを幻覚させるものです。
ImComplete はまず、可視インスタンスと欠落領域の位置を考慮するトランスフォーマー アーキテクチャを採用します。
次に、ImComplete は欠落している領域内のセマンティック セグメンテーション マスクを完成させ、ピクセル レベルのセマンティックおよび構造ガイダンスを提供します。
最後に、画像合成ブロックが写真のようにリアルなコンテンツを生成します。
COCO-panoptic および Visual Genome データセットを使用して、視覚的品質 (LPIPS および FID) とコンテキスト保存スコア (CLIPscore およびオブジェクト検出精度) の観点から、結果の包括的な評価を実行します。
実験結果は、さまざまな自然画像に対する ImComplete の優位性を示しています。
要約(オリジナル)
Image completion is a task that aims to fill in the missing region of a masked image with plausible contents. However, existing image completion methods tend to fill in the missing region with the surrounding texture instead of hallucinating a visual instance that is suitable in accordance with the context of the scene. In this work, we propose a novel image completion model, dubbed ImComplete, that hallucinates the missing instance that harmonizes well with – and thus preserves – the original context. ImComplete first adopts a transformer architecture that considers the visible instances and the location of the missing region. Then, ImComplete completes the semantic segmentation masks within the missing region, providing pixel-level semantic and structural guidance. Finally, the image synthesis blocks generate photo-realistic content. We perform a comprehensive evaluation of the results in terms of visual quality (LPIPS and FID) and contextual preservation scores (CLIPscore and object detection accuracy) with COCO-panoptic and Visual Genome datasets. Experimental results show the superiority of ImComplete on various natural images.
arxiv情報
著者 | Jinoh Cho,Minguk Kang,Vibhav Vineet,Jaesik Park |
発行日 | 2023-03-29 06:35:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google