DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

要約

現在の知覚的類似性メトリクスは、ピクセルとパッチのレベルで機能します。
これらのメトリクスは、低レベルの色とテクスチャの観点から画像を比較しますが、画像のレイアウト、オブジェクトのポーズ、セマンティック コンテンツにおける中レベルの類似点と相違点を捕捉できません。
この論文では、画像を総合的に評価する知覚指標を開発します。
私たちの最初のステップは、さまざまな点で似ている画像ペアに対する人間の類似性判断の新しいデータセットを収集することです。
このデータセットにとって重要なのは、判断がほぼ自動的に行われ、すべての観察者によって共有されることです。
これを達成するために、私たちは最新のテキストから画像へのモデルを使用して、さまざまな次元に沿って摂動された合成ペアを作成します。
私たちは、一般的な知覚指標では新しいデータを説明するには不十分であることに気づき、人間の知覚によりよく適合するように調整された新しい指標である DreamSim を導入します。
私たちは、メトリクスがさまざまな視覚的属性によってどのような影響を受けるかを分析し、メトリクスが前景オブジェクトとセマンティック コンテンツに重点を置いている一方で、色やレイアウトにも敏感であることがわかりました。
特に、合成データでトレーニングされているにもかかわらず、私たちのメトリクスは実際の画像に一般化されており、検索および再構成タスクで強力な結果が得られます。
さらに、私たちのメトリクスは、これらのタスクに関して、以前に学習されたメトリクスと最近の大規模ビジョンモデルの両方を上回っています。

要約(オリジナル)

Current perceptual similarity metrics operate at the level of pixels and patches. These metrics compare images in terms of their low-level colors and textures, but fail to capture mid-level similarities and differences in image layout, object pose, and semantic content. In this paper, we develop a perceptual metric that assesses images holistically. Our first step is to collect a new dataset of human similarity judgments over image pairs that are alike in diverse ways. Critical to this dataset is that judgments are nearly automatic and shared by all observers. To achieve this we use recent text-to-image models to create synthetic pairs that are perturbed along various dimensions. We observe that popular perceptual metrics fall short of explaining our new data, and we introduce a new metric, DreamSim, tuned to better align with human perception. We analyze how our metric is affected by different visual attributes, and find that it focuses heavily on foreground objects and semantic content while also being sensitive to color and layout. Notably, despite being trained on synthetic data, our metric generalizes to real images, giving strong results on retrieval and reconstruction tasks. Furthermore, our metric outperforms both prior learned metrics and recent large vision models on these tasks.

arxiv情報

著者 Stephanie Fu,Netanel Tamir,Shobhita Sundaram,Lucy Chai,Richard Zhang,Tali Dekel,Phillip Isola
発行日 2023-06-15 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク