TopNet: Transformer-based Object Placement Network for Image Compositing

要約

タイトル:TopNet:画像合成のためのTransformer-basedオブジェクト配置ネットワーク

要約:
– 本論文では、画像合成のためのオブジェクトを背景画像に自動的に配置する問題に取り組んでいる。
– 背景画像とセグメンテーションされたオブジェクトが与えられた場合、オブジェクトの配置位置とスケールを予測するモデルを学習することを目的としている。
– 合成画像の品質は、予測された位置/スケールに大きく依存する。
– 既存の手法は、候補の境界ボックスを生成するか、背景画像とオブジェクト画像のグローバル表現を使用してスライドウィンドウ検索を適用するため、背景画像のローカル情報をモデル化できない。
– 本論文では、Transformerモジュールを使用してオブジェクト機能とすべてのローカル背景機能の相関関係を学習し、すべての可能な位置/スケール構成について詳細な情報を提供することを提案している。
– 疎な対比損失を提案し、スパースな監督付きでモデルをトレーニングすることができる。提案手法は、1つのネットワークフォワードパスですべての位置/スケールの組み合わせの妥当性を示す3Dヒートマップを生成でき、スライドウィンドウ法よりも10倍以上高速である。
– ユーザーが事前定義された位置またはスケールを提供する場合、提案手法は対話型検索をサポートする。
– 提案手法は、明示的注釈または市販のinpaintingモデルを使用した自己監督学習でトレーニングでき、既存の手法よりも優れた性能を発揮する。
– ユーザースタディにより、トレーニングされたモデルが多様で挑戦的なシーンやオブジェクトカテゴリを持つ実世界の画像にうまく汎化されることが示された。

要約(オリジナル)

We investigate the problem of automatically placing an object into a background image for image compositing. Given a background image and a segmented object, the goal is to train a model to predict plausible placements (location and scale) of the object for compositing. The quality of the composite image highly depends on the predicted location/scale. Existing works either generate candidate bounding boxes or apply sliding-window search using global representations from background and object images, which fail to model local information in background images. However, local clues in background images are important to determine the compatibility of placing the objects with certain locations/scales. In this paper, we propose to learn the correlation between object features and all local background features with a transformer module so that detailed information can be provided on all possible location/scale configurations. A sparse contrastive loss is further proposed to train our model with sparse supervision. Our new formulation generates a 3D heatmap indicating the plausibility of all location/scale combinations in one network forward pass, which is over 10 times faster than the previous sliding-window method. It also supports interactive search when users provide a pre-defined location or scale. The proposed method can be trained with explicit annotation or in a self-supervised manner using an off-the-shelf inpainting model, and it outperforms state-of-the-art methods significantly. The user study shows that the trained model generalizes well to real-world images with diverse challenging scenes and object categories.

arxiv情報

著者 Sijie Zhu,Zhe Lin,Scott Cohen,Jason Kuen,Zhifei Zhang,Chen Chen
発行日 2023-04-06 20:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク