Learning Subject-Aware Cropping by Outpainting Professional Photos

要約

写真をどのようにフレーミング(トリミング)するかは、画像の被写体やそのコンテクストに依存することが多い。最近の研究では、被写体を意識した画像切り抜きタスクを、ニュアンスに富んだ実用的な画像切り抜きバージョンとして定義している。我々は、プロフェッショナルなストック画像から、高品質で被写体を意識した切り抜きとは何かを学習する、弱い教師ありアプローチ(GenCrop)を提案する。教師ありの先行研究とは異なり、GenCropは既存のストック画像コレクションを超える新たな手動注釈を必要としない。しかし、このデータから学習する際の重要な課題は、画像が既にトリミングされており、どの領域が削除されたかが分からないことである。我々の洞察は、ストック画像のライブラリと、事前に訓練された最新のテキストから画像への拡散モデルを組み合わせることである。ストック画像コレクションは多様性を提供し、その画像は良いトリミングのための擬似ラベルとして機能する。一方、テキスト画像拡散モデルは、現実的なトリミングされていない画像をアウトペイント(外向きのインペイント)するために使用される。この手順により、切り抜きモデルを学習するための、切り抜き-切り抜きなしの学習ペアの大規模なデータセットを自動的に生成することができる。GenCropは弱教師付きであるにもかかわらず、最新の教師付き手法と遜色なく、定量的・定性的評価指標において、同等の弱教師付きベースラインよりも有意に優れている。

要約(オリジナル)

How to frame (or crop) a photo often depends on the image subject and its context; e.g., a human portrait. Recent works have defined the subject-aware image cropping task as a nuanced and practical version of image cropping. We propose a weakly-supervised approach (GenCrop) to learn what makes a high-quality, subject-aware crop from professional stock images. Unlike supervised prior work, GenCrop requires no new manual annotations beyond the existing stock image collection. The key challenge in learning from this data, however, is that the images are already cropped and we do not know what regions were removed. Our insight is to combine a library of stock images with a modern, pre-trained text-to-image diffusion model. The stock image collection provides diversity and its images serve as pseudo-labels for a good crop, while the text-image diffusion model is used to out-paint (i.e., outward inpainting) realistic uncropped images. Using this procedure, we are able to automatically generate a large dataset of cropped-uncropped training pairs to train a cropping model. Despite being weakly-supervised, GenCrop is competitive with state-of-the-art supervised methods and significantly better than comparable weakly-supervised baselines on quantitative and qualitative evaluation metrics.

arxiv情報

著者 James Hong,Lu Yuan,Michaël Gharbi,Matthew Fisher,Kayvon Fatahalian
発行日 2024-04-04 13:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク