要約
画像のトリミングは、写真の視覚的な魅力と物語の影響を高めるために重要ですが、既存のルールベースとデータ駆動型のアプローチには多様性が欠けているか、注釈付きのトレーニングデータが必要です。
プロの写真を活用して作物の決定を導く検索ベースの方法であるProcropを紹介します。
プロの写真とクエリ画像の写真と融合することにより、Procropはプロの作曲から学び、パフォーマンスを大幅に向上させます。
さらに、専門的な画像を塗りつぶし、多様な作物の提案を繰り返し精製することによって生成される242kの弱い注釈付き画像の大規模なデータセットを提示します。
この構成認識データセット生成は、審美的な原則に導かれた多様な高品質の作物提案を提供し、画像トリミングのために最大の公開データセットになります。
広範な実験では、Procropが監督された設定と弱い監視設定の両方で既存の方法を大幅に上回ることが示されています。
特に、新しいデータセットで訓練された場合、Procropは以前の弱く監視された方法を上回り、完全に監視されたアプローチと一致します。
コードとデータセットの両方が、画像の美学と構成分析の研究を進めるために公開されます。
要約(オリジナル)
Image cropping is crucial for enhancing the visual appeal and narrative impact of photographs, yet existing rule-based and data-driven approaches often lack diversity or require annotated training data. We introduce ProCrop, a retrieval-based method that leverages professional photography to guide cropping decisions. By fusing features from professional photographs with those of the query image, ProCrop learns from professional compositions, significantly boosting performance. Additionally, we present a large-scale dataset of 242K weakly-annotated images, generated by out-painting professional images and iteratively refining diverse crop proposals. This composition-aware dataset generation offers diverse high-quality crop proposals guided by aesthetic principles and becomes the largest publicly available dataset for image cropping. Extensive experiments show that ProCrop significantly outperforms existing methods in both supervised and weakly-supervised settings. Notably, when trained on the new dataset, our ProCrop surpasses previous weakly-supervised methods and even matches fully supervised approaches. Both the code and dataset will be made publicly available to advance research in image aesthetics and composition analysis.
arxiv情報
著者 | Ke Zhang,Tianyu Ding,Jiachen Jiang,Tianyi Chen,Ilya Zharkov,Vishal M. Patel,Luming Liang |
発行日 | 2025-05-28 15:38:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google