Data Augmentation via Latent Diffusion for Saliency Prediction

要約

顕著性予測モデルは、ラベル付きデータの多様性と量が限られているという制約を受けます。
回転やトリミングなどの標準的なデータ拡張手法は、シーンの構成を変更し、顕著性に影響を与えます。
私たちは、現実世界のシーンの複雑さと変動性を維持しながら自然画像を編集する、深い顕著性予測のための新しいデータ拡張方法を提案します。
顕著性は高レベルの特徴と低レベルの特徴に依存するため、私たちのアプローチには、色、コントラスト、明るさ、クラスなどのフォトメトリック属性とセマンティック属性を組み込むことによる両方の学習が含まれます。
この目的を達成するために、測光特性のターゲットを絞った編集を可能にする顕著性ガイドのクロスアテンション メカニズムを導入し、それによって特定の画像領域内の顕著性を強化します。
実験結果は、私たちのデータ拡張手法がさまざまな顕著性モデルのパフォーマンスを一貫して向上させることを示しています。
さらに、顕著性予測の拡張機能を活用すると、公開されている顕著性ベンチマークで優れたパフォーマンスが得られます。
ユーザー調査によって検証されたように、私たちの予測は、編集された画像における人間の視覚的注意パターンと密接に一致しています。

要約(オリジナル)

Saliency prediction models are constrained by the limited diversity and quantity of labeled data. Standard data augmentation techniques such as rotating and cropping alter scene composition, affecting saliency. We propose a novel data augmentation method for deep saliency prediction that edits natural images while preserving the complexity and variability of real-world scenes. Since saliency depends on high-level and low-level features, our approach involves learning both by incorporating photometric and semantic attributes such as color, contrast, brightness, and class. To that end, we introduce a saliency-guided cross-attention mechanism that enables targeted edits on the photometric properties, thereby enhancing saliency within specific image regions. Experimental results show that our data augmentation method consistently improves the performance of various saliency models. Moreover, leveraging the augmentation features for saliency prediction yields superior performance on publicly available saliency benchmarks. Our predictions align closely with human visual attention patterns in the edited images, as validated by a user study.

arxiv情報

著者 Bahar Aydemir,Deblina Bhattacharjee,Tong Zhang,Mathieu Salzmann,Sabine Süsstrunk
発行日 2024-09-11 14:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク